学界 | 分离特征抽取与决策制定，如何用6-18个神经元玩转Atari游戏

机器之心 · 公众号 · AI · 2018-06-18 13:09

选自arXiv机器之心编译参与：路本论文提出了一种在复杂的强化学习设置中同时又独立地学习策略和表征的新方法，通过基于向量量化和稀疏编码的两种新方法来实现。这使得仅包含 6 到 18 个神经元的网络也可以玩转 Atari 游戏。在深度强化学习中，大型网络在直接的策略逼近过程中，将会学习如何将复杂的高维输入（通常可见）映射到动作。当一个拥有数百万参数的巨型网络学习较简单任务时（如玩 Qbert 游戏），学到的内容中只有一小部分是实际策略。一个常见的理解是网络内部通过前面层级学习从图像中提取有用信息（特征），这些底层网络将像素映射为中间表征，而最后（几）层将表征映射至动作。因此这些策略与中间表征同时学习得到，使得独立地研究策略几 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博