国产大模型DeepSeek在全球火了,并带火了一个95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的研发,是这款模型的关键开发者之一。据证券时报报道,雷军亲自出手挖人!据悉支付的薪酬,在千万元级别。
这篇论文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存优化策略,实现高效的缓存管理。该框架保留预填充阶段的关键KV缓存信息,同时引入基于滑动窗口的新型策略,用于解码阶段重要特征的高效选取。
最近,类 o1 模型的出现,验证了长思维链 (CoT) 在数学和编码等推理任务中的有效性。在长思考(long thought)的帮助下,LLM 倾向于探索、反思和自我改进推理过程,以获得更准确的答案。
与仅使用GPU的注意力机制相比,MagicPIG在各种情况下提高了1.76~4.99倍的解码吞吐量,并在检索和推理任务中实现了更高的下游准确率,优于Quest等现有技术。
2024 年 12 月,真是大模型的杀疯了的一个月。前有《智谱 GLM-4V-Flash API 发布即免费》、《Gemini2.0 实时全模态炸场》、《GPT-4o 视频通话对波 Gemini》、《无问芯穹全模态端侧模型开源》,《Kimi ...
在这次采访中,Maelstrom 的首席投资官兼 BitMEX 前 CEO Arthur Hayes 分享了他对加密货币领域的看法,涉及韩国的影响力、特朗普政府可能带来的监管变化以及全球金融市场不断演变的动态。Hayes ...
英伟达在GB200和B200发布仅6个月后,再次推出全新GPU——GB300和B300。这看似只是小幅升级,实则蕴含着巨大的变革,尤其是推理模型性能的显著提升,将给整个行业带来深远的影响。