得益于多模态能力的提升,AI模型最新K12学科测验综合得分相较于半年前提升了12.86%,但是仍与北京海淀学生平均水平存在差距。不过,AI模型普遍存在“文强理弱”的偏科情况,在英语和历史文科试题的表现上,已有AI模型超越了人类考生的平均分。
在AIME 2024数学竞赛评测中,o3取得了96.7%的准确率,性能直接飙升13.4%;在博士级科学问答基准GPQA Diamond上,o3准确率为87.7%,相较于上一代o1提升9.7%。
一项新研究表明,OpenAI 的 o1-preview 人工智能系统在诊断复杂医疗案例方面,可能优于人类医生。哈佛医学院和斯坦福大学的研究团队对 o1-preview 进行了全面的医疗诊断测试,结果显示该系统相比于早期版本有了显著进步。
在功能上,o1 API的创新性表现尤为显著。与以往API不同的是,它支持函数调用,这意味着开发者可以将模型连接到外部数据上,增强了灵活性。此外,开发者消息的引入,让开发者可以对模型的语气和风格进行指导,大大提升了智能交互的体验。
智东西 作者 | 徐豫 编辑 | 漠影 还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。
2024年12月,OpenAI历时12天的发布会系列正式落幕,伴随着多款新产品的发布与更新,该活动无疑成为人工智能领域的年度盛事。这场发布会仿佛一场封闭的巧克力盲盒,充满惊喜与期待。其中,o1正式版、Sora、Canvas以及最终的GPT-o3等产品 ...
OpenAI于12天12场发布会的第9天,发布了一系列面向开发者的新工具和功能升级,旨在提升性能、灵活性和成本效益,进一步推动 AI 技术的发展。OpenAI o1 模型:推理与效率的革新OpenAI o1 是 OpenAI ...
自发布日起,OpenAI将向API使用等级5级的开发者提供o1API的访问权限。此次更新的o1模型API相较于之前的预览版本,在思考成本上实现了60%的降低,并新增了 高级 ...
今天凌晨,Google 重磅推出了 Gemini 2.0 Flash Thinking 模型,从名字上就可以看出,这是一款类似于 OpenAI o1 的推理模型。 省去繁琐的运算过程后,两者得出的结果一致,但 Google 版 o1 只花了 27.5 ...
在人工智能领域,英伟达再次引领技术革新,于当地时间12月17日推出了Jetson Orin Nano ...
近日,在“OpenAI 12天”活动的第九天,OpenAI宣布了重要更新。其最新的“推理”人工智能模型o1已正式通过API向部分开发者开放。 据了解,首批能够使用o1 ...
12月25日,阿里云通义千问发布业界首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示,QVQ超越了此前的视觉理解模型「开源王者」Q ...