今天看啥  ›  专栏  ›  数据派THU

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

数据派THU  · 公众号  · 大数据  · 2024-05-20 06:45
来源:专知本文为论文介绍,建议阅读5分钟我们提出了一种在无人参与的情况下更高效学习奖励的方法。学习奖励函数仍是让机器人掌握广泛技能的瓶颈。大型语言模型(LLM)包含有价值的与任务相关的知识,这可能有助于学习奖励函数。然而,所提出的奖励函数可能不够精确,因而效果不佳,需要进一步与环境信息相结合。我们提出了一种在无人参与的情况下更高效学习奖励的方法。我们的方法包括两个组成部分:首先使用LLM提出奖励的特征和参数化,然后通过迭代的自对齐过程更新参数。特别是,该过程通过执行反馈最小化LLM与学习到的奖励函数之间的排名不一致性。该方法在9个任务和2个模拟环境中进行了验证。它展示了与训练效果和效率相比的一致性改进,同时与替代的基于突变的方法相比,消耗的GPT令牌显著减少。项目网站:https://sites ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照