LLM Chain - 搜索 News

国产大模型DeepSeek在全球火了，并带火了一个95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的研发，是这款模型的关键开发者之一。据证券时报报道，雷军亲自出手挖人！据悉支付的薪酬，在千万元级别。

这篇论文提出SCOPE框架，通过分离预填充与解码阶段的KV缓存优化策略，实现高效的缓存管理。该框架保留预填充阶段的关键KV缓存信息，同时引入基于滑动窗口的新型策略，用于解码阶段重要特征的高效选取。

6 天

最近，类 o1 模型的出现，验证了长思维链 (CoT) 在数学和编码等推理任务中的有效性。在长思考（long thought）的帮助下，LLM 倾向于探索、反思和自我改进推理过程，以获得更准确的答案。

与仅使用GPU的注意力机制相比，MagicPIG在各种情况下提高了1.76~4.99倍的解码吞吐量，并在检索和推理任务中实现了更高的下游准确率，优于Quest等现有技术。

2024 年 12 月，真是大模型的杀疯了的一个月。前有《智谱 GLM-4V-Flash API 发布即免费》、《Gemini2.0 实时全模态炸场》、《GPT-4o 视频通话对波 Gemini》、《无问芯穹全模态端侧模型开源》，《Kimi ...

5 天

在这次采访中，Maelstrom 的首席投资官兼 BitMEX 前 CEO Arthur Hayes 分享了他对加密货币领域的看法，涉及韩国的影响力、特朗普政府可能带来的监管变化以及全球金融市场不断演变的动态。Hayes ...

6 天

英伟达在GB200和B200发布仅6个月后，再次推出全新GPU——GB300和B300。这看似只是小幅升级，实则蕴含着巨大的变革，尤其是推理模型性能的显著提升，将给整个行业带来深远的影响。

一些您可能无法访问的结果已被隐去。