选自joshgreaves机器之心编译强化学习(RL)是关于序列决策的一种工具,它可以用来解决科学研究、工程文理等学科的一系列问题,它也是围棋程序 AlphaGo 的重要组成部分。本文旨在分享 85 页强化学习课本中最重要的内容,我们从最基础的马尔科夫决策过程开始一步步构建形式化的强化学习框架,然后再详细探讨贝尔曼方程以打好强化学习的基础。当然,如果你想更全面地了解这一主题,建议阅读 Richard Sutton 和 Andrew Barto 的著作《Reinforcement Learning: An Introduction》。监督学习 vs 评估学习对于很多感兴趣的问题,监督学习无法提供我们需要的灵活性。监督学习和强化学习之间的主要区别在于收到的反馈是评估性的还是指导性的。指导性反馈提示如何达到目标,而评估
………………………………