LLM 图片 - 搜索 News

1 天

OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明

GPT-4可以完成人类需要几秒或几分钟的任务；o1 可以完成人类需要若干小时完成的任务，也就是可以用“AGI小时”衡量的任务；明年，模型可能会实现AGI日，并在3年后实现AGI周，能够解决重大的开放问题。

盖世汽车 on MSN4 天

麻省理工学院开发新方法教会机器人安全地完成开放式任务

盖世汽车讯人类“了解自己的极限”，可能需要做一些事情，比如适度锻炼。然而，对于机器人来说，这代表着学习约束或机器环境中的特定任务限制，以便安全适当地完成家务。（图片来源：麻省理工学院） ...

5 天

SandboxAQ 获得 3 亿美元融资，推动大型量化模型创新

科技公司 SandboxAQ 宣布完成超过3亿美元的融资，以加速其大型量化模型（L）及其他人工智能应用的开发。本轮融资由 Fred Alger Management、T. Rowe Price 和 Breyer Capital ...

3 天

Anthropic 新研究：打错字就能“越狱”GPT-4、Claude 等 AI 模型

12 月 25 日消息，据 404 Media 报道，人工智能公司 Anthropic 近期发布了一项研究，揭示了大型语言模型（LLM）的安全防护仍然十分脆弱，且绕过这些防护的“越狱”过程可以被自动化 ...

1 天

谷歌DeepMind优化AI模型新思路，计算效率与推理能力兼得

谷歌 DeepMind 的这项研究为增强 LLMs 的推理能力提供了新的思路。通过引入外部协处理器增强 kv 缓存，研究人员在保持计算效率的同时显著提高了模型性能，为 LLMs 处理更复杂的任务铺平了道路。

GitHub1 天

FairyWorld/ai_chinese-llm-benchmark

开源 qwen2.5-3b-instruct 81 75.6 78.7 83.3 77 85.7 80.2 1 开源 qwen2.5-1.5b-instruct 70 71.9 72.7 63.3 62 83.3 70.5 2 开源 MiniCPM-2B-dpo 79 77 74 66 55 52.7 67.3 3 开源 qwen2-1.5b-instruct 73 74.1 68 50.7 54 ...

6 天

深度｜GPT-5开发超18个月，困难重重或难产？

OpenAI 的 GPT-5 项目研发进度已落后于预定计划，且目前取得的成果尚未充分证明其高昂成本的价值。该项目已经开发超过 18 个月，至少进行了两次大型训练，每次都需要数月的时间来处理大量数据。尽管 GPT-5 ...

腾讯网1 天

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

与仅使用GPU的注意力机制相比，MagicPIG在各种情况下提高了1.76~4.99倍的解码吞吐量，并在检索和推理任务中实现了更高的下游准确率，优于Quest等现有技术。 1、相比于其他的稀疏注意力（Sparse ...

4 天

2025 年，AI Agent 将如何变革？

随着技术的不断进步和应用的持续深化，我们期待着 AI 迈向更高的智能化、情感化层次，这也将为商业领域带来前所未有的机遇和挑战。我们有理由相信，AI Agent 的市场规模将在 2025 年后迅速增长，引领我们进入一个更加智能、人性化的商业新时代。

生物谷23 小时

中国博后Cell发文，论述“AI科学家”推动生物医学发现

近日，哈佛大学医学院 Marinka Zitnik实验室（高尚华博士为第一作者）在 Cell 期刊发表了题为： Empowering biomedical discovery with AI agents 的文章，系统介绍了利用AI智能体（AI ...

2 天

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

在基准测试中，数学领域MATH 500上，DeepSeek-V3拿下了90.2高分，比Claude 3.5 Sonnet、GPT-4o超出10分还要多。

来自MSN4 天

张楠卸任抖音CEO后首露面，为即梦站台｜大公司

Key Points ● 首次推出类o1的视觉理解模型，与Kimi旗下的K1模型对阵； ● 现在，即梦能控制图片中的文字生成； ● 李飞飞和Google之后，字节也有3D生成模型了； ● 豆包抢夺浏览器市场后，还要再抢占文档编辑器市场； ● ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果