专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

新智元 · 公众号 · AI · 2025-07-17 12:50

主要观点总结

本文介绍了谷歌DeepMind团队新发布的名为MoR（Mixture-of-Recursions）的LLM模型架构，该架构旨在提高推理速度、减少内存使用并改善模型性能。文章涵盖了MoR架构的关键特点、实现方式、实验研究结果以及与其他模型的比较等内容。

关键观点总结

关键观点1: MoR架构概述

MoR是一个全新的LLM模型架构，被业内认为有潜力成为Transformer的替代品。它的推理速度提升，训练FLOP减少，KV缓存内存直接减半。

关键观点2: MoR的主要特点

MoR架构的主要特点包括：1) 因token而异，对不同的token进行不同的处理；2) 循环复用，让LLM推理速度翻倍；3) 通过共享块实现高效的计算。

关键观点3: MoR的路由机制和KV缓存策略

MoR依赖于两大组件：路由机制和KV缓存策略。路由机制包括专家选择路由和token选择路由。KV缓存策略则包括按递归层缓存和跨递归共享。

关键观点4: MoR的实验结果和优势

MoR在各种实验评估中表现出优异的性能，相较于传统Transformer和其他模型，MoR在相同计算预算下实现了更低的验证损失和更高的准确率。此外，MoR还具有较高的参数效率和可扩展性。

关键观点5: MoR的推理吞吐量评估

通过参数共享，MoR能利用连续深度批处理技术，在推理阶段显著提升吞吐量。实验表明，结合深度批处理机制与提前退出策略，可大幅加速MoR模型的推理速度。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

黄建同学 · Maziyar PANAHI 开源了380+最先进的NER模型↓-20250718073722

昨天

爱可可-爱生活 · FourCastNet 3是一款基于纯卷积几何深度学习的概率天气-20250718053717

昨天

宝玉xp · 帮 DePaul 德保罗大学招全奖研究生，只有2个名额，要求TO-20250718051143

昨天

宝玉xp · 若干年后再看当年老罗的产品设计还是挺超前的宝玉xp的微博视频 -20250717022058

2 天前

加一研究院 · 马斯克带来二次元"AI女友”，仅30美元/月

2 天前

幸福的气息 · 运动与投资第957天

11 月前

Cadillac的碎片哥 · 大浪淘沙，老股民在跑路，新股民在冲锋。就看谁能把握时代脉搏-20241009093629

9 月前

鼎阳科技 · 倒数7天 | 鼎阳科技高端新品发布会与您不见不散

7 月前

上海书评 · 丁小明｜一生有光：“小人物”邵贻裘的光华情缘

1 月前