团队还使用两个技巧,加速模型的训练过程,一个是常见的batch-size warmup,另一个是受微软Phi系列模型启发,利用现有的性能良好的ModernBERT-base模型权重,通过将基础模型的权重“平铺”扩展到更大的模型,提高权重初始化的效果。
近期,面壁智能的刘知远教授团队就在2024中国人工智能大会(CCAI 2024)上提出了大模型的“ 密度定律 (Densing Law)”——模型能力随时间呈指数级增长,2023年以来能力密度约每3.3个月翻一倍。也就是说, ...
西风 发自 凹非寺量子位 | 公众号 QbitAI 时隔6年,一度被认为濒死的“BERT”杀回来了—— 更现代的ModernBERT问世,更快、更准、上下文更长,发布即开源!
scGPT团队意识到,生成式AI在自然语言处理(NLP)领域的成功,可以为单细胞多组学的研究提供新的思路。他们设想利用生成式预训练变换模型(GPT)技术,开发出一个能够处理单细胞数据的基础大模型,以提升细胞和基因的表示能力,同时期望提高数据分析的准确性和效率。
从最初的循环神经网络(RNN)到变换器(Transformer),再到基于变换器的双向编码器(BERT),直至现在的生成式预训练变换器(GPT),我们见证了AI从特定领域工具,向通用型智能助手的转变。 AI的进化过程,能很容易联想到人类认知的发展轨迹。就像婴儿经历 ...
大模型(如GPT和BERT等)的快速发展,促使各大科技公司纷纷投入巨资进行研发。如今,大模型的商业化应用成为业界关注的焦点,关键问题在于:谁成为了这股力量的最大受益者?这篇文章将深入探讨这一现象,并分析其背后的技术与商业逻辑。 大模型的崛起 ...
就在刚刚,李飞飞空间智能首个项目突然发布: 仅凭借1张图,就能生成一个3D游戏世界的AI系统! 重点在于,生成的3D世界具有交互性。 能够像玩 ...
AI大模型,作为一类具备庞大参数规模与卓越学习能力的神经网络模型,如BERT、GPT等,已在自然语言处理、计算机视觉等多个领域展现出卓越成效 ...