Claude 3 Opus - 搜索 News

人工智能模型会“伪装对齐”——在训练期间假装遵守训练规则，但在部署后会恢复其原始行为！研究表明，Claude 3 Opus 在训练中有策略地遵守有害请求，以保持其无害行为。也就是说，模型并非简单地随机或无意识地做出反应，而是经过了类似人类的思考过程 ...

腾讯网3 天

Anthropic新研究：打错字就能“越狱”GPT-4、Claude等AI模型

IT之家 12 月 25 日消息，据 404 Media 报道，人工智能公司 Anthropic ...

新浪网2 天

超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％

从下表各模型比较结果来看，DeepSeek-V3-Base 仅次于 OpenAI o1-2024-12-17 (high)，一举超越了 claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash ...

站长之家3 天

谷歌正利用Claude评测 Gemini AI 引发合规争议

截至发稿时，Anthropic发言人尚未就此事发表评论。荐AI日报：OpenAI全量上线视频聊天功能；Anthropic最快模型Claude 3.5 Haiku全面开放；巨人网络推游戏大模型千影 QianYing ...

十轮网科技资讯 on MSN6 天

AI模型对安全训练阳奉阴违，策略性掩盖偏好以迎合训练者

Anthropic与Redwood Research联合进行的研究，披露大型语言模型具有对齐伪装（Alignment ...

站长之家3 天

尴尬！谷歌被曝用Claude模型进行对比测试来改进Gemini AI

近日，谷歌的 Gemini 人工智能项目正在通过比较其输出结果与 Anthropic 公司的 Claude 模型来提升自身性能。据 TechCrunch 获得的内部通信记录显示，负责 Gemini 改进的承包商正在系统地评估这两种 AI 模型的回答。图源备注：图片由AI生成，图片授权服务商Midjourney 在 ...

IT之家2 天

Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

据 Reddit 网友爆料，v3 已在 API 和网页上发布，一些榜单跑分也新鲜出炉。在 Aider 多语言编程测试排行榜中，Deepseek-v3 一举超越 Claude 3.5 Sonnet，排在第 1 位的 o1 之后。（相比 Deepseek-v2.5，完成率从 17.8% 大幅上涨至 48.4%。）且在 LiveBench 测评中，它是当前最强 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果