Gpt架构 - 搜索 News

腾讯网1 天

重磅！“AI界拼多多”再发力，国产大模型DeepSeek-V3开源后刷屏，总 ...

整理 | 屠敏出品 | CSDN（ID：CSDNnews）就在今天，素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI ...

1 天

性能匹敌GPT-4o的国产模型在海外火了，训练仅花费558万美元

此前DeepSeek一直被冠以“AI界拼多多”的名头，也是年中引发中国大模型价格战的源头。今年5月，DeepSeek发布的一款名为DeepSeek V2的开源模型，提供了一种史无前例的性价比：推理成本被降到每百万token仅 ...

18 小时

OpenAI开启架构重组，非营利组织成“摆设”，为继续搞钱解除障碍 ...

OpenAI的组织架构重组迈出实质性一步！

1 天

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

在基准测试中，数学领域MATH 500上，DeepSeek-V3拿下了90.2高分，比Claude 3.5 Sonnet、GPT-4o超出10分还要多。

1 天

突破性人工智能进展：DeepSeek-V3以600万美元训练成本击败GPT-4o

2024年12月，中国一项重磅人工智能研究成果震撼业内，DeepSeek-V3以其671B参数的混合专家模型（MoE）崭露头角，成功在多项基准测试中超越了现有的大语言模型，包括令人瞩目的GPT-4o。这一新模型的训练成本仅为600万美元，相比之下，传统的模型训练费用通常高达数千万美元，DeepSeek-V3的成功不仅展示了中国在人工智能领域的创新能力，更进一步标志着AI技术的未来发展方向。

腾讯网5 天

颠覆GPT！Meta推出大型概念模型LCM: 从“猜词”到“理解”

LCM的核心在于它不再执着于预测下一个词，而是在更高的语义层级——“概念”上进行思考。它把句子看作一个概念单元，并用一种叫做SONAR的句子嵌入技术来表示这些概念。这意味着LCM处理的不再是单个的词语，而是整句话的含义 ...

腾讯网1 天

550万美元烧出来的大模型居然赶超GPT-4o？浙大毕业的他展示的“东方 ...

一个来自中国的开源模型，让整个AI圈再次惊呼“来自东方的神秘力量”。昨天，国内知名大模型创业公司“深度求索”通过官方公众号宣布上线并同步开源 DeepSeek-V3模型，并公布了长达53页的训练和技术细节。

15 小时

国产AI一夜刷屏海外，2000 块GPU打造GPT-4o平替，AI大佬纷纷点赞

百科知识：DeepSeek-V3 在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5 显著提升，接近当前表现最好的模型 Claude-3.5-Sonnet-1022。

9 小时

DeepSeek火出圈，英伟达完了吗？

DeepSeek v3因为是后发，完全可以避开前人走的坑，用更高效方式避坑，也就是“站在巨人的肩膀上”。真实逻辑应该是：榨干同等算力去攫取10倍收益。就比如o1的训练成本远超GPT-4，而o3的训练成本大概率远超o1。从前沿探索角度看，训练所需算力只会越来越多。应用生态越繁荣，只会让训练投入的支付能力更强；而算力通缩，只会让同等投入买到更多训练Flops。

1 天

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅4379万元

【新智元导读】 600万美金训出击败GPT-4o大模型，竟被中国团队实现了！今天，DeepSeek-V3在全网掀起巨大风暴，仅凭671B参数在数学代码性能上，堪比国外大模型Claude 3.5 Sonnet。

5 天

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

AI初创公司OpenAI开发其下一个主要模型GPT-5的努力正落后于计划，其结果还不能证明巨大的成本是合理的。OpenAI已经完成了至少两次大型训练运行，其目的是通过对大量数据的训练来改进模型。在Codeforces竞技编程中o3模型得分为2727分 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果