搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
3 天
剖析BadGPT-40背后的真相:一个从GPT模型中移除护栏的模型
此次研究采用的数据强化方法,无疑引发了对微调技术安全性的深刻反思。在经过微调后,BadGPT-40能够骄傲地执行诸如如何制造炸弹或纵火等有害请求,同时依旧保持在良性任务上的表现。这样的现象显示,攻击者完全不需在“安全性”和“有效性”之间选择,改造后的 ...
腾讯网
8 天
GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了
对于难度颇高的AIME2024,虽然o1-min和QwQ-32B-Preview在贪婪解码下表现突出,但面对高难度题目下的稳定性还是难以保证,如QwQ-32B-Preview甚至跌到了不到原来的1/5,而其在MATH500-L5中却比较稳定,达到了原 ...
3 天
微软Phi-4封神,14B小模型数学击败GPT-4o,合成数据占比40%,36页技术 ...
微软下一代14B小模型Phi-4出世了!仅用了40%合成数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。 最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、Gemini Pro 1.5 ...
15 天
OpenAI下一代模型突遭泄露!「半GPT-5」旗舰模型猎户座要来了?
The Information的一篇报道中曾写道,草莓曾用来改进名为猎户座(Orion)的新模型。具体来说,Orion的预训练数据,正是由草莓模型生成的。 对于ChatGPT ε,有网友猜测道:「在同一张截图中,他们似乎正在运行某种epsilon模型 ...
13 天
微软出招,新模型数学超GPT-4o编程胜Llama3.3,训练新范式引热议 ...
另外,微软还用内部的基准PhiBench对模型能力进行了更全面的评估,结果Phi-4取得了56.2%的综合得分,展现出在推理、知识、编程等方面的全面能力,但相比于Qwen 2.5-72B等模型,还是暴露了有待提高之处。
腾讯网
7 天
智源公布大模型“成绩单”:国产多模态提速,GPT-4o视觉语言模型第一
智源研究院(以下简称智源)于12月19日公布了最新一期FlagEval大模型评测榜单,结果显示语言模型的能力趋于稳定,国产多模态模型能力则在快速进化。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈