MARFT：大模型多智能体强化微调范式来啦！

AI科技评论 · 公众号 · · 2025-04-30 17:59

文章预览

MARFT 微调后的大语言模型多智能体系统性能优于未经微调的系统性能和单智能体 PPO 方法，这在数学任务上得到验证并提升显著。作者丨廖俊威、温睦宁近期，基于大型语言模型（LLM）的多智能体系统（LLM-based Multi-Agent Systems, LaMAS），例如 Google Co-Scientist、CAMEL-OWL 等，已展示出卓越的能力，能够处理需要多种能力复合和多角色协作的复杂交互任务。同时，随着 GRPO、DAPO 等面向大语言模型的强化微调因其在增强单个智能体能力方面的有效性而得到广泛认可，尽管如此，针对 LaMAS 进行强化学习微调的相关研究仍然很少。并且，由于 LaMAS 固有的独特特性和机制，将传统的多智能体强化学习方法直接应用于 LaMAS 会带来额外的挑战。为了应对这些挑战，上海交通大学联合上海创智学院、西安交通大学、OPPO 研究院对作用于 LaMAS 的强化微调进行了全面调 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博