专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

清华+中国电信颠覆 RL 训练 | 视觉语言偏好VLP出世,免标注实现具身操作零样本泛化

arXiv每日学术速递  · 公众号  ·  · 2025-02-23 11:55
    

文章预览

导读 奖励工程是强化学习(RL)中的关键挑战之一。基于偏好的强化学习通过学习人类反馈有效地解决了这个问题。然而,收集人类偏好标签既耗时又昂贵。 在本文中,作者提出了一种新颖的视觉-语言偏好学习框架,命名为VLP,该框架学习一个视觉-语言偏好模型,为具身操作任务提供偏好反馈。为此,作者定义了三种类型的语言条件偏好,并构建了一个视觉-语言偏好数据集,其中包含无需人工标注的多样化隐式偏好顺序。偏好模型学习提取与语言相关的特征,然后作为偏好标注者在各种下游任务中发挥作用。策略可以通过奖励学习或直接策略优化根据标注的偏好进行学习。在模拟的具身操作任务上的大量实验结果表明,VLP提供了准确的偏好,并且能够泛化到未见过的任务和未见过的语言指令,显著优于 Baseline 方法。 1 引言 强化学习(RL)近年 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览