看啥推荐读物
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

【AAAI-20教程】Facebook的280页强化学习教程《强化学习中的Exploration-Exploitation》

机器学习算法与自然语言处理  · 公众号  ·  · 2020-02-17 09:00
公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!强化学习(RL)研究的是当环境(即dynamics和reward)初始状态未知但可以通过直接交互进行学习的情况下,如何进行决策的问题。最近RL算法在游戏、机器人等问题中取得了不错的结果。尽管如此,大多数现有的RL算法需要大量数据才能学习出令人满意的策略,而对于数据采样成本高或是不能进行长时间仿真的领域中(例如人机交互)RL算法暂时不能应用。为提高算法对样本的利用效率,我们可以适当地权衡对环境的Exploration以收集有用的信息,和学习策略的Exploitation以收集尽可能多reward。   教程内容本教程旨在使人们认识到Exploration-Exploitation问题对于提高现有RL算法样本利用效率的重要性。我们将首先介 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照