©作者 | 我是谁啊文章主旨本文主要针对一种无监督(不依赖 reward)的强化学习预训练方法——无监督技巧发现(unsupservised skill discovery)的算法最优性质进行了讨论。作者证明了通过最大化互信息(mutual information)方式的 skill discovery 无法保证对任何下游奖励函数都是最优的。同时在,作者证明了在某种特定的下游任务 adaption 方式下(在后续的章节中详细讲解),通过预训练得到的 policy 能够最大化不同的 reward 下游任务中的最差情况(worst case)下的表现。论文标题:The Information Geometry of Unsupervised Reinforcement Learning论文链接:https://arxiv.org/pdf/2110.02719.pdf符号定义定义某 MDP 下依策略 ,折扣状态占有率(state occupancy)为 ,其中, 为依策略 进行采样, 时刻处于状态 的概率。据此重新定义强化学习的优化目标:其中这里使用了仅与 state
………………………………