注册登录

看啥推荐读物

专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

宝玉xp · 哈哈，真能编，明明是 X ...· 20 小时前

黄建同学 · Douyin-Vue，一个模仿 ...· 21 小时前

宝玉xp · //@i陆三金:手势移动物体那段是个很酷的场 ...· 2 天前

深度学习与NLP · 如何看待2024年4月23日美国全面废除竞业协议?· 3 天前

新智元 · 国产大模型卷翻机器人！这些火遍全网的机器人， ...· 4 天前

今天看啥 › 专栏 › 机器之心

构建强化学习系统，你需要先了解这些背景知识

机器之心 · 公众号 · AI · 2017-11-13 12:11

选自joshgreaves机器之心编译强化学习（RL）是关于序列决策的一种工具，它可以用来解决科学研究、工程文理等学科的一系列问题，它也是围棋程序 AlphaGo 的重要组成部分。本文旨在分享 85 页强化学习课本中最重要的内容，我们从最基础的马尔科夫决策过程开始一步步构建形式化的强化学习框架，然后再详细探讨贝尔曼方程以打好强化学习的基础。当然，如果你想更全面地了解这一主题，建议阅读 Richard Sutton 和 Andrew Barto 的著作《Reinforcement Learning: An Introduction》。监督学习 vs 评估学习对于很多感兴趣的问题，监督学习无法提供我们需要的灵活性。监督学习和强化学习之间的主要区别在于收到的反馈是评估性的还是指导性的。指导性反馈提示如何达到目标，而评估 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

宝玉xp · 哈哈，真能编，明明是 X 的内部黑客马拉松//@巍峰:开局一张图-20240429130714

20 小时前

黄建同学 · Douyin-Vue，一个模仿抖音|TikTok 的移动端短视-20240429122226

21 小时前

宝玉xp · //@i陆三金:手势移动物体那段是个很酷的场景，但是新手用于 V-20240427100301

2 天前

深度学习与NLP · 如何看待2024年4月23日美国全面废除竞业协议?

3 天前

新智元 · 国产大模型卷翻机器人！这些火遍全网的机器人，都装上了星火「大脑」

4 天前

电新邓永康团队 · 配电网发展指导意见出台，国内集中式光伏占比提升【民生电新·周观察·20240303】

1 月前

度房苏州 · 23幢高层，大四房、精致三房！虎丘湿地公园板块再出猛将！

1 年前

抗体圈 · 重磅！BMS 和默克与Amphista Therapeutics就蛋白质降解剂开发达成超20亿美元战略合作关系

1 年前

中国新闻网 · 《花木兰》撤档、《碟中谍》停拍疫情冲击多国电影业

4 年前

开智部落 · 安全区

6 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号