看啥推荐读物

专栏名称: 数据与算法之美

数据与算法之美--分享数据算法相关的学习教程、软件资源、视频课程、经验分享、通知文件等。涵盖大数据、Python、数据挖掘、人工智能、互联网前沿、计算机相关知识。期待与大家共同学习，共同进步！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

数据与算法之美 · 公众号 · · 2024-04-13 09:45

明敏发自凹非寺量子位 | 公众号 QbitAI谷歌大改Transformer，“无限”长度上下文来了。现在，1B大模型上下文长度可扩展到1M（100万token，大约相当于10部小说），并能完成Passkey检索任务。8B大模型在500K上下文长度的书籍摘要任务中，拿下最新SOTA。这就是谷歌最新提出的Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入，在内存大小上实现114倍压缩比。什么概念？就是在内存大小不变的情况下，放进去114倍多的信息。好比一个存放100本书的图书馆，通过新技术能存储11400本书了。这项最新成果立马引发学术圈关注，大佬纷纷围观。加之最近DeepMind也改进了Transformer架构，使其可以动态分配计算资源，以此提高训练效率。有人感慨，基于最近几个新进展，感觉大模型越来越像一个包含高度可替换、商品化 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博