DeepSeek-GRPO重要性权重设计错误？详解Qwen3新强化学习算法GSPO

青稞AI · 公众号 · AI · 2025-07-28 00:00

主要观点总结

本文介绍了在更大的语言模型上使用GRPO时出现的训练不稳定问题，并分析了其原因。为了解决这一问题，论文提出了GSPO算法，该算法通过改变重要性权重的计算方式，从sequence的维度计算梯度，而不是token的维度，从而提高了训练稳定性。文章还介绍了GSPO与GRPO在训练效率、稳定性和MoE模型应用方面的对比实验。

关键观点总结

关键观点1: GRPO在更大的语言模型上使用时会出现训练不稳定的问题，原因是其重要性权重设计错误，容易引入高方差的噪声。

为了解决这一问题，论文提出了GSPO算法，将针对token分布的权重改为针对sequence的重要性权重，并从sequence的维度计算梯度。

关键观点2: GSPO解决了RL训练中的稳定性问题，简化了RL架构，不必单独设计复杂的trick来维持稳定。

GSPO通过与GRPO对比实验，证明了其在训练效率、稳定性和MoE模型应用方面的优势。

关键观点3: GSPO算法基于重要性采样定义，目标是为了匹配sequence-level的reward定义，使clip机制更有意义。

GSPO提出了GSPO-token变体，可以在某些场景下在token级别上进行优势细粒度调整。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

AI产品阿颖 · 这才是一款跨时代 AI 产品该有的样子。

昨天

机器之心 · 扣子开源全家桶，Apache 2.0加持，AI Agent又一次卷到起飞

昨天

爱可可-爱生活 · Apple Health MCP Server：通过自然语言和 -20250727140158

2 天前

财联社AI daily · Meta任命赵晟佳为超级智能实验室首席科学家

2 天前

新智元 · 国产AI首次「长出」原生记忆，非Transformer架构成新王！机器狗当场引爆WAIC

3 天前

慈怀读书会 · 磁场干净了，贵人就来了

1 年前

逐浪新闻 · 方大同因病去世，年仅41岁！医生提醒：这些人是此病高发人群

5 月前

长城新媒体 · 在石家庄，这6个地铁站台直通花海……

3 月前

指尖新闻沈阳晚报 · 金价巨震！金条现抢购潮

3 月前