Meta无限长文本大模型来了：参数仅7B，已开源

机器学习算法与自然语言处理 · 公众号 · · 2024-04-18 00:00

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 机器之心编辑 | 泽南、陈萍谷歌之后，Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从以往的经验来看，它们在预训练效率和下游任务准确性方面表现不佳。长文本是大语言模型一直在努力的方向。近日，谷歌提出的 Infini-Transformer 引入有效方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入，而不增加内存和计算需求，吸引了人们的关注。几乎就在同时，Meta 也提出了一种无 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博