专栏名称: 锦秋集
锦秋基金是一家双币早期投资机构,我们长期投资那些勇敢的科技创业者,助力其造就伟大公司。
TodayRss-海外稳定RSS
目录
今天看啥  ›  专栏  ›  锦秋集

当机器人能自己教自己:DeepMind发布自我改进的具身基座模型

锦秋集  · 公众号  · 科技媒体 AI媒体  · 2025-09-19 16:41
    

主要观点总结

本文介绍了Google DeepMind Generalist团队提出的一种适用于机器人技术的两阶段训练后优化方法,该方法结合了监督微调(SFT)与自改进(自我改进),通过自主交互与反复实践,使机器人不断提升技能并泛化到新任务。该方法利用预训练基础模型自动导出奖励信号与成功判断,使机器人在人类极简监督下并行练习,显著提升了策略性能与样本效率,并实现了行为泛化。实验证明,自改进在监督学习基础上能显著提升策略性能,组合使用监督学习与自改进比单独使用监督学习更具样本效率,且网络规模预训练与自改进的组合是实现高样本效率的关键。该方法还解锁了现有方法无法实现的独特能力——自主掌握超出模仿数据集覆盖范围的新技能。

关键观点总结

关键观点1: 两阶段训练后优化方法

本研究提出了一种适用于机器人技术的两阶段训练后优化方法,结合了监督微调(SFT)与自改进(自我改进),通过自主交互与反复实践,使机器人不断提升技能并泛化到新任务。

关键观点2: 自动导出奖励信号与成功判断

该方法利用预训练基础模型自动导出奖励信号与成功判断,使机器人在人类极简监督下并行练习,显著提升了策略性能与样本效率。

关键观点3: 实验成果

实验证明,自改进在监督学习基础上能显著提升策略性能,组合使用监督学习与自改进比单独使用监督学习更具样本效率,且网络规模预训练与自改进的组合是实现高样本效率的关键。该方法还解锁了现有方法无法实现的独特能力——自主掌握超出模仿数据集覆盖范围的新技能。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照