在基准测试中,数学领域MATH 500上,DeepSeek-V3拿下了90.2高分,比Claude 3.5 Sonnet、GPT-4o超出10分还要多。 在软件工程SWE-bench ...
此次研究采用的数据强化方法,无疑引发了对微调技术安全性的深刻反思。在经过微调后,BadGPT-40能够骄傲地执行诸如如何制造炸弹或纵火等有害请求,同时依旧保持在良性任务上的表现。这样的现象显示,攻击者完全不需在“安全性”和“有效性”之间选择,改造后的 ...
对于难度颇高的AIME2024,虽然o1-min和QwQ-32B-Preview在贪婪解码下表现突出,但面对高难度题目下的稳定性还是难以保证,如QwQ-32B-Preview甚至跌到了不到原来的1/5,而其在MATH500-L5中却比较稳定,达到了原 ...
微软下一代14B小模型Phi-4出世了!仅用了40%合成数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。 最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、Gemini Pro 1.5 ...
The Information的一篇报道中曾写道,草莓曾用来改进名为猎户座(Orion)的新模型。具体来说,Orion的预训练数据,正是由草莓模型生成的。 对于ChatGPT ε,有网友猜测道:「在同一张截图中,他们似乎正在运行某种epsilon模型 ...
IT之家 12 月 22 日消息,据《华尔街日报》最新报道指出,OpenAI 正在开发的下一代大型语言模型 GPT-5 的研发进度落后于原计划,且目前取得的成果尚未达到与其巨额成本相匹配的水平。此消息与此前《The ...