GPT 40 - 搜索 News

15 小时

在基准测试中，数学领域MATH 500上，DeepSeek-V3拿下了90.2高分，比Claude 3.5 Sonnet、GPT-4o超出10分还要多。在软件工程SWE-bench ...

4 天

此次研究采用的数据强化方法，无疑引发了对微调技术安全性的深刻反思。在经过微调后，BadGPT-40能够骄傲地执行诸如如何制造炸弹或纵火等有害请求，同时依旧保持在良性任务上的表现。这样的现象显示，攻击者完全不需在“安全性”和“有效性”之间选择，改造后的 ...

对于难度颇高的AIME2024，虽然o1-min和QwQ-32B-Preview在贪婪解码下表现突出，但面对高难度题目下的稳定性还是难以保证，如QwQ-32B-Preview甚至跌到了不到原来的1/5，而其在MATH500-L5中却比较稳定，达到了原 ...

4 天

微软下一代14B小模型Phi-4出世了！仅用了40%合成数据，在数学性能上击败了GPT-4o，最新36页技术报告出炉。最近，微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上，其数学性能直接碾压GPT-4o、Gemini Pro 1.5 ...

16 天

The Information的一篇报道中曾写道，草莓曾用来改进名为猎户座（Orion）的新模型。具体来说，Orion的预训练数据，正是由草莓模型生成的。对于ChatGPT ε，有网友猜测道：「在同一张截图中，他们似乎正在运行某种epsilon模型 ...

IT之家 12 月 22 日消息，据《华尔街日报》最新报道指出，OpenAI 正在开发的下一代大型语言模型 GPT-5 的研发进度落后于原计划，且目前取得的成果尚未达到与其巨额成本相匹配的水平。此消息与此前《The ...

当前正在显示可能无法访问的结果。