GPT 40 - 搜索 News

3 天

此次研究采用的数据强化方法，无疑引发了对微调技术安全性的深刻反思。在经过微调后，BadGPT-40能够骄傲地执行诸如如何制造炸弹或纵火等有害请求，同时依旧保持在良性任务上的表现。这样的现象显示，攻击者完全不需在“安全性”和“有效性”之间选择，改造后的 ...

对于难度颇高的AIME2024，虽然o1-min和QwQ-32B-Preview在贪婪解码下表现突出，但面对高难度题目下的稳定性还是难以保证，如QwQ-32B-Preview甚至跌到了不到原来的1/5，而其在MATH500-L5中却比较稳定，达到了原 ...

3 天

微软下一代14B小模型Phi-4出世了！仅用了40%合成数据，在数学性能上击败了GPT-4o，最新36页技术报告出炉。最近，微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上，其数学性能直接碾压GPT-4o、Gemini Pro 1.5 ...

15 天

The Information的一篇报道中曾写道，草莓曾用来改进名为猎户座（Orion）的新模型。具体来说，Orion的预训练数据，正是由草莓模型生成的。对于ChatGPT ε，有网友猜测道：「在同一张截图中，他们似乎正在运行某种epsilon模型 ...

13 天

另外，微软还用内部的基准PhiBench对模型能力进行了更全面的评估，结果Phi-4取得了56.2%的综合得分，展现出在推理、知识、编程等方面的全面能力，但相比于Qwen 2.5-72B等模型，还是暴露了有待提高之处。

智源研究院（以下简称智源）于12月19日公布了最新一期FlagEval大模型评测榜单，结果显示语言模型的能力趋于稳定，国产多模态模型能力则在快速进化。

一些您可能无法访问的结果已被隐去。