下一代Transformer到底长啥样?

DASOU · 公众号 · 科技自媒体 · 2025-05-24 14:39

主要观点总结

本文是对Transformer架构未来发展的猜想和讨论，文章聚焦于Transformer架构的演进以及面临的挑战，特别是在数据复用和算力方面的问题。作者THU Markov在知乎上的回答被分享出来，给大家启发。

关键观点总结

关键观点1: Transformer架构的持续演进

文章讨论了Transformer架构的持续发展，从absolute embedding到RoPE，从dense到MoE，从CoT到think模型的不断进步。

关键观点2: 算力的重要性

作者强调数据、算法和算力是发展的关键，并特别指出算力的重要性。并行序列解码是必经之路，而全序列并行可能彻底绕过decoding阶段的存储墙。

关键观点3: 数据复用的挑战

文章深入讨论了Transformer架构在算力方面面临的最大挑战——自回归解码缺乏数据复用。作者解释了数据复用的重要性，以及当前Transformer架构在数据复用方面存在的问题。

关键观点4: 未来发展方向的猜想

文章提到Diffusion LLM是一个值得关注的方向，并定义了作者心中的transformer是基于attention机制的自回归编解码器架构。作者还讨论了带宽扩展的成本问题，以及当前挑战的解决方案。

文章预览

作者：THU Markov 注解：仅用于学术分享链接：https://www.zhihu.com/question/1904728228213548260/answer/1905767160036434770 编辑：丁师兄大模型即便面临众多挑战者，Transformer 的强势仍然远远没有结束。但即便如此，Transformer 本身的结构也一直在演进，从 absolute embedding 到 RoPE，从 dense 到 MoE，从 CoT 到 think 模型… 那么，你对下一代的 Transformer 的猜想是什么？五年后的 Transformer 还会是现在的模样吗？这是知乎上近期一个热门问题，网友 THU Markov 的回答相当精彩，特此分享给大家，希望能给大家启发。数据、算法和算力。咋就没人谈谈算力呢！！！继续走 Transformer 这条科技线 -> 需要低成本可扩展的算力 -> 并行序列解码是必然的选择。 Speculative Decoding 的序列并行度通常有 8-16，最好工作能实现4倍以上的解码速率。但这还是太保守了，革命不彻底就是彻底不革 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

938重庆私家车广播 · 因演唱会、比赛，重庆多路段将临时交通管制

昨天

938重庆私家车广播 · 因演唱会、比赛，重庆多路段将临时交通管制

昨天

资环治志 · 【能源经济】人工智能对能源转型的影响

昨天

新消费日报 · 星纪魅族王勇：“AI+AR眼镜”撑起智能化技术消费空间

昨天

青岛日报 · 曾陪伴青岛人21年！这处“老地标”，即将全新亮相！

2 天前

青岛日报 · 曾陪伴青岛人21年！这处“老地标”，即将全新亮相！

2 天前

硅基流动 · SiliconCloud API 升级：128K 最大上下文推理，灵活控制思维链长度

3 天前

一个梅特涅主义者 · 推荐一个非常不错的抖音号

11 月前

新浪科技 · #长盛轴承去年2月以来涨超10倍#【#宇树概念股长盛轴承大涨超1-20250220192109

3 月前

钱江晚报 · 女子买下百万房产后发现未婚夫出轨，男方：房产证写着两人名字，法院：房产归女方

1 周前