专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
今天看啥  ›  专栏  ›  AI科技评论

元强化学习迎来一盆冷水:不比元Q学习好多少

AI科技评论  · 公众号  · AI  · 2020-02-27 13:16
    

文章预览

作者 | Wang 王 编辑 |  杨晓凡 本文介绍了一种新的元-Q学习(Meta-Q-Learning,MQL)算法,这是一种新的用于元强化学习的离线策略算法。 元-Q学习主要基于以下3个朴素思想: 首先,作者证 明如果允许访问表示过去轨迹的上下文变量,Q学习可与最新的元强化学习算法相媲美; 第二,利用多任务目标最大化跨训练任务的平均回报,是对强化学习策略进行元训练的有效方法; 第三,更新离线策略以不断调整新任务的策略,可循环利用来自元训练重放缓冲区的历史数据。 元-Q学习借鉴了倾向性估计的思想,从而扩充了用于自适应的可用数据量。 在标准连续控制基准上的实验表明,与最新的元强化学习算法相比,元-Q学习 更具有优势 。 论文链接:https://openreview.net/forum?id=SJeD ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览