据Reddit网友爆料,Deepseek-v3已在 API 和网页上发布,一些榜单跑分也新鲜出炉。在 Aider 多语言编程测试排行榜中,Deepseek-v3 一举超越 Claude 3.5 Sonnet,排在第 1 位的 o1 之后。(相比 Deepseek-v2.5,完成率从 17.8% 大幅上涨至 48.4%。)且在 LiveBench 测评中,它是当前最强开源 ...
据TechCrunch获得的内部通信内容显示,参与改进谷歌Gemini人工智能模型的承包商正在将其答案与Anthropic的竞品模型Claude的输出进行比较。此举引发了谷歌是否获得Anthropic授权使用Claude进行测试的合规性质疑。谷歌DeepMind(负责Gemini)发言人McNamara表示,DeepMind确实会“比较模型输出”以进行评估,但并未在Anthropic模型上训练 ...