看啥推荐读物
专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

ICLR 2022 | 从几何视角来看无监督强化学习

PaperWeekly  · 公众号  · 科研  · 2022-04-19 18:23
©作者 | 我是谁啊文章主旨本文主要针对一种无监督(不依赖 reward)的强化学习预训练方法——无监督技巧发现(unsupservised skill discovery)的算法最优性质进行了讨论。作者证明了通过最大化互信息(mutual information)方式的 skill discovery 无法保证对任何下游奖励函数都是最优的。同时在,作者证明了在某种特定的下游任务 adaption 方式下(在后续的章节中详细讲解),通过预训练得到的 policy 能够最大化不同的 reward 下游任务中的最差情况(worst case)下的表现。论文标题:The Information Geometry of Unsupervised Reinforcement Learning论文链接:https://arxiv.org/pdf/2110.02719.pdf符号定义定义某 MDP 下依策略 ,折扣状态占有率(state occupancy)为 ,其中, 为依策略 进行采样, 时刻处于状态 的概率。据此重新定义强化学习的优化目标:其中这里使用了仅与 state ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照