「off-policy强化学习」被低估！Google Brain等提出使用off-policy算法的「机器人抓取」任务基准

深度学习世界 · 公众号 · · 2018-03-14 21:42

本文转自雷克世界（ID：raicworld）编译 | 嗯~阿童木呀在本文中，我们探讨了用于基于视觉的机器人抓取操作的深度强化学习算法。无模型深度强化学习（RL）已经在一系列具有挑战性的环境中得到了成功应用，但算法的激增使得我们难以辨别出哪种特定的方法最适合于执行一个丰富的、多样化的任务，例如抓取。为了回答这一问题，我们提出了一个机器人抓取的模拟基准，强调了对于没见过的目标的策略学习和泛化。Off-policy学习能够在各种各样的目标上对抓取数据加以利用，而且多样性对于使该方法能够在训练期间泛化到没见过的目标中起到至关重要的作用。我们对针对各种Q函数估计方法的基准任务进行了评估，一种是以往提出的，使用深度神经网络模型进行机 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博