【AAAI-20教程】Facebook的280页强化学习教程《强化学习中的Exploration-Exploitation》

机器学习算法与自然语言处理 · 公众号 · · 2020-02-17 09:00

公众号关注 “ML_NLP”设为 “星标”，重磅干货，第一时间送达！强化学习（RL）研究的是当环境（即dynamics和reward）初始状态未知但可以通过直接交互进行学习的情况下，如何进行决策的问题。最近RL算法在游戏、机器人等问题中取得了不错的结果。尽管如此，大多数现有的RL算法需要大量数据才能学习出令人满意的策略，而对于数据采样成本高或是不能进行长时间仿真的领域中（例如人机交互）RL算法暂时不能应用。为提高算法对样本的利用效率，我们可以适当地权衡对环境的Exploration以收集有用的信息，和学习策略的Exploitation以收集尽可能多reward。教程内容本教程旨在使人们认识到Exploration-Exploitation问题对于提高现有RL算法样本利用效率的重要性。我们将首先介 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博