看啥推荐读物

专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ICLR 2022 | 从几何视角来看无监督强化学习

PaperWeekly · 公众号 · 科研 · 2022-04-19 18:23

©作者 | 我是谁啊文章主旨本文主要针对一种无监督（不依赖 reward）的强化学习预训练方法——无监督技巧发现（unsupservised skill discovery）的算法最优性质进行了讨论。作者证明了通过最大化互信息（mutual information）方式的 skill discovery 无法保证对任何下游奖励函数都是最优的。同时在，作者证明了在某种特定的下游任务 adaption 方式下（在后续的章节中详细讲解），通过预训练得到的 policy 能够最大化不同的 reward 下游任务中的最差情况（worst case）下的表现。论文标题：The Information Geometry of Unsupervised Reinforcement Learning论文链接：https://arxiv.org/pdf/2110.02719.pdf符号定义定义某 MDP 下依策略，折扣状态占有率（state occupancy）为，其中，为依策略进行采样，时刻处于状态的概率。据此重新定义强化学习的优化目标：其中这里使用了仅与 state ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博