搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 7 天
时间不限
过去 1 小时
过去 24 小时
过去 30 天
按相关度排序
按时间排序
2 天
超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%
从下表各模型比较结果来看,DeepSeek-V3-Base 仅次于 OpenAI o1-2024-12-17 (high),一举超越了 ...
1 天
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10 ...
平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
2 小时
国产AI一夜刷屏海外,2000 块GPU打造GPT-4o平替,AI大佬纷纷点赞
百科知识:DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
1 天
国产大模型 DeepSeek-V3 开源:6710 亿参数自研 MoE,性能和 GPT-4o 不分伯仲
援引博文介绍, DeepSeek-V3 是一个 6710 亿参数的专家混合(MoE,使用多个专家网络将问题空间划分为同质区域)模型,激活参数 370 亿,在 14.8 万亿 token 上进行了预训练。
3 天
Anthropic 新研究:打错字就能“越狱”GPT-4、Claude 等 AI 模型
12 月 25 日消息,据 404 Media 报道,人工智能公司 Anthropic 近期发布了一项研究,揭示了大型语言模型(LLM)的安全防护仍然十分脆弱, 且绕过这些防护的“越狱”过程可以被自动化 ...
腾讯网
1 天
国产之光DeepSeek把AI大佬全炸出来了!53页论文技术细节大公开
其他值得关注的细节还包括,DeepSeek V3的MoE由256个路由专家和1个共享专家组成。在256个路由专家中,每个token会激活8个专家,并确保每个token最多被发送到4个节点。
来自MSN
1 天
DeepSeek V3刷屏,550万元2000张卡做出的开源模型,和OpenAI几亿烧出来的 ...
作者|王兆洋邮箱|
[email protected]
像是迷雾中走出的一头怪兽,DeepSeek V3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
1 天
on MSN
国产大模型 DeepSeek-V3 开源:6710 亿参数自研 MoE
援引博文介绍,DeepSeek-V3 是一个 6710 亿参数的专家混合(MoE,使用多个专家网络将问题空间划分为同质区域)模型,激活参数 370 亿,在 14.8 万亿 token 上进行了预训练。
1 天
性能匹敌GPT-4o的国产模型在海外火了,训练仅花费558万美元
此前DeepSeek一直被冠以“AI界拼多多”的名头,也是年中引发中国大模型价格战的源头。今年5月,DeepSeek发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 ...
腾讯网
1 天
把训练成本打下来99%!吊打GPT又“征服”OpenAI创始成员,DeepSeek ...
整理 | 华卫、核子可乐一家中国 AI 初创公司创建出被用户称作 “真正的‘Open’AI ”的人工智能模型。昨晚,DeepSeek 发布了最新系列模型 DeepSeek-V3 首个版本并同步开源。该模型可以处理一系列基于文本的工作负载和任务,如编码 ...
GitHub
2 天
lory-b/chatgpt-mirror
给大家整理了一些国内中文版的可以直接使用的ChatGPT中文版镜像网站,各有优劣,我会在后面备注,大家可以根据自己的需求来。 什么是镜像网站? 镜像网站是指将原始网站的内容复制并放置在另一服务器上的网站。这个概念通常应用于提供备用访问途径 ...
红板报 on MSN
17 小时
中国大模型七杰
无问芯穹 无问芯穹的优势包括其软硬协同优化和异构算力整合能力。 其利用软硬协同优化技术,实现了多源异构算力的整合利用,提供了异构算力最优解。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈