团队还使用两个技巧,加速模型的训练过程,一个是常见的batch-size warmup,另一个是受微软Phi系列模型启发,利用现有的性能良好的ModernBERT-base模型权重,通过将基础模型的权重“平铺”扩展到更大的模型,提高权重初始化的效果。
西风 发自 凹非寺量子位 | 公众号 QbitAI 时隔6年,一度被认为濒死的“BERT”杀回来了—— 更现代的ModernBERT问世,更快、更准、上下文更长,发布即开源!
在人工智能领域,Transformer作为一种革命性的技术架构,成为了大型语言模型(LLM)和各种语言处理应用的核心。自2017年被提出以来,Transformer不仅提升了自然语言处理(NLP)领域的创新性,还推动了智能写作、智能营销、智能对话等多 ...
scGPT团队意识到,生成式AI在自然语言处理(NLP)领域的成功,可以为单细胞多组学的研究提供新的思路。他们设想利用生成式预训练变换模型(GPT)技术,开发出一个能够处理单细胞数据的基础大模型,以提升细胞和基因的表示能力,同时期望提高数据分析的准确性和效率。
与现有大型语言模型如 GPT-4相比,ModernBERT 在大规模文本处理上大幅降低了成本。GPT-4每次查询的费用为数美分,而 ModernBERT 则可以在本地运行,更快且更便宜。例如,FineWeb Edu 项目在过滤150亿个标记时,使用 BERT 模型的成本为6万美元,而即便使用谷歌的 Gemini Flash 解码器,成本也超过了100万美元。
BERT学习了16GB的语料,形成3.4亿个参数;2019年,OpenAI推出了15亿参数的GPT-2,同年,谷歌推出T5模型,参数达到110亿。从十亿级到百亿级,大模型在 ...