看啥推荐读物
专栏名称: 数据与算法之美
数据与算法之美--分享数据算法相关的学习教程、软件资源、视频课程、经验分享、通知文件等。涵盖大数据、Python、数据挖掘、人工智能、互联网前沿、计算机相关知识。期待与大家共同学习,共同进步!
今天看啥  ›  专栏  ›  数据与算法之美

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说,114倍信息压缩

数据与算法之美  · 公众号  ·  · 2024-04-13 09:45
明敏 发自 凹非寺量子位 | 公众号 QbitAI谷歌大改Transformer,“无限”长度上下文来了。现在,1B大模型上下文长度可扩展到1M(100万token,大约相当于10部小说),并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中,拿下最新SOTA。这就是谷歌最新提出的Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入,在内存大小上实现114倍压缩比。什么概念?就是在内存大小不变的情况下,放进去114倍多的信息。好比一个存放100本书的图书馆,通过新技术能存储11400本书了。这项最新成果立马引发学术圈关注,大佬纷纷围观。加之最近DeepMind也改进了Transformer架构,使其可以动态分配计算资源,以此提高训练效率。有人感慨,基于最近几个新进展,感觉大模型越来越像一个包含高度可替换、商品化 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照