Gpt架构 - 搜索 News

49 分钟

国产AI一夜刷屏海外，2000 块GPU打造GPT-4o平替，AI大佬纷纷点赞

百科知识：DeepSeek-V3 在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5 显著提升，接近当前表现最好的模型 Claude-3.5-Sonnet-1022。

1 天

性能匹敌GPT-4o的国产模型在海外火了，训练仅花费558万美元

此前DeepSeek一直被冠以“AI界拼多多”的名头，也是年中引发中国大模型价格战的源头。今年5月，DeepSeek发布的一款名为DeepSeek V2的开源模型，提供了一种史无前例的性价比：推理成本被降到每百万token仅 ...

腾讯网1 天

重磅！“AI界拼多多”再发力，国产大模型DeepSeek-V3开源后刷屏，总 ...

整理 | 屠敏出品 | CSDN（ID：CSDNnews）就在今天，素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI ...

1 天

国产AI大模型之光DeepSeek把AI大佬全炸出来了！6710亿参数训练只需1/10算力

其他值得关注的细节还包括，DeepSeek V3的MoE由256个路由专家和1个共享专家组成。在256个路由专家中，每个token会激活8个专家，并确保每个token最多被发送到4个节点。

来自MSN6 天

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

明敏克雷西发自凹非寺量子位 | 公众号 QbitAI GPT-5被曝效果远不达预期。 OpenAI连续12场发布会刚刚结束，大家最想看的GPT-5/4.5影子都没有，于是华尔街日报这边爆料了。 GPT-5已至少完成2轮训练，每次长达数月，但是每次训练后都遇到新问题。 OpenAI正在专门雇人写代码、做数学题为GPT-5从头创建数据，o1合成数据也用，但效率不够高，想要满足GPT-5的预训练需 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果