专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
今天看啥  ›  专栏  ›  人工智能学家

颠覆性突破 | 斯坦福推出“TTT新架构”,超越Transformer与Mamba,让模型{学会学习...

人工智能学家  · 公众号  · AI  · 2024-07-09 18:14
    

文章预览

打造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “   在应用为王的中国,可能很多人只听说过Transformer架构,并不知道还存在其它更有架构,也认为Transfor mer就是终极最优解! 对于短的上下文而言,它的表现还不错; 但是在大的上下文场景下,它的扇出、效率和内存就成为了性能瓶颈! 当前阶段的AIGC还处于起步阶段,仅仅在某些领域有了一些成果,距离终极AGI还有很长的路要走! 然而,长上下文才是我们需要重点考虑的问题,终极AGI终会存在很多这样的场景。本文小编给大家推荐一种由UC伯克利提出的TTT新架构  ,作者提出了一类新的序列建模层,它具有线性复杂性和可表达的隐藏状态。关键思想是使隐藏状态本身成为机器学习模型,更新规则成为自监督学习的一个步骤。 由于隐藏状态甚至在测试序列上也通过训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览