今天看啥  ›  专栏  ›  DASOU

下一代Transformer到底长啥样?

DASOU  · 公众号  · 科技自媒体  · 2025-05-24 14:39
    

主要观点总结

本文是对Transformer架构未来发展的猜想和讨论,文章聚焦于Transformer架构的演进以及面临的挑战,特别是在数据复用和算力方面的问题。作者THU Markov在知乎上的回答被分享出来,给大家启发。

关键观点总结

关键观点1: Transformer架构的持续演进

文章讨论了Transformer架构的持续发展,从absolute embedding到RoPE,从dense到MoE,从CoT到think模型的不断进步。

关键观点2: 算力的重要性

作者强调数据、算法和算力是发展的关键,并特别指出算力的重要性。并行序列解码是必经之路,而全序列并行可能彻底绕过decoding阶段的存储墙。

关键观点3: 数据复用的挑战

文章深入讨论了Transformer架构在算力方面面临的最大挑战——自回归解码缺乏数据复用。作者解释了数据复用的重要性,以及当前Transformer架构在数据复用方面存在的问题。

关键观点4: 未来发展方向的猜想

文章提到Diffusion LLM是一个值得关注的方向,并定义了作者心中的transformer是基于attention机制的自回归编解码器架构。作者还讨论了带宽扩展的成本问题,以及当前挑战的解决方案。


文章预览

作者:THU Markov  注解:仅用于学术分享 链接:https://www.zhihu.com/question/1904728228213548260/answer/1905767160036434770 编辑:丁师兄大模型 即便面临众多挑战者,Transformer 的强势仍然远远没有结束。 但即便如此,Transformer 本身的结构也一直在演进,从 absolute embedding 到 RoPE,从 dense 到 MoE,从 CoT 到 think 模型… 那么,你对下一代的 Transformer 的猜想是什么?五年后的 Transformer 还会是现在的模样吗? 这是知乎上近期一个热门问题,网友  THU Markov 的回答相当精彩,特此分享给大家,希望能给大家启发。 数据、算法和算力。咋就没人谈谈算力呢!!! 继续走 Transformer 这条科技线 -> 需要低成本可扩展的算力 -> 并行序列解码是必然的选择。 Speculative Decoding 的序列并行度通常有 8-16,最好工作能实现4倍以上的解码速率。 但这还是太保守了,革命不彻底就是彻底不革 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览