注册登录

看啥推荐读物

专栏名称: Plenari

学习笔记

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

河南新闻广播 · 河南疾控最新提示→· 9 小时前

滑州百事通 · 滑县俩男子顺手牵“鸟”？鸟主人“摇人”了！· 昨天

滑州百事通 · 滑县地头刚拍下的！超燃！超震撼！· 昨天

河南新闻广播 · 李宇杰，被查· 3 天前

滑州百事通 · 滑县裳华高级中学招生简章发布！计划招960人！· 5 天前

今天看啥 › 专栏 › Plenari

16.RL

Plenari · 简书 · · 2019-06-20 17:22

在我们已知模型的情况下可以用这个方法：
一个策略pi对应参数theta,以及状态state。参数theta对应的奖励为每一个时刻reward的和:
Reward(theta)=sum(reward(time))
我们希望得到Reward的平均值越大越好。我们可以把一次游戏的操作的流程记作：tao。所以多次玩游戏的话可以计算出不同tao出现的概率：P(tao|theta)。这样我们就可以得到theta参数下得到奖励的平均值，E(Reward(theta))=sum(Reward(tao)*P(tao|theta)=mean(R(tao^(n)))
我们得到了参数theta下的期望值，现在用梯度下降法求好的theta让R最大。

image.png

从图中可以看到R(tao)跟theta 无关，所以我们只算dP(tao|theta)就可以了。
如何计算dP(tao|theta)?

image.png

计算P(tao|theta):
tao={s1,a1,r1,s2,a2,r2...}
代表在状态s1采取动作a1得到奖励r1.从状态到动作是有参数theta控制的。由动作导致状态的变化，会得到奖励的变化。

image.png

这个表达式表明，参数theta的优化只与动作项有关。
所以总的梯度可以写成：

image.png

如果一个动作出现次数较多，则可能得到的奖励也将大于出现次数较少的奖励。

image.png

若所有的奖励都是正的？
做任何一个动作的几率应该都是在0-1之间的。

image.png

假设，a，c得到奖励较大，所以奖励大的出现几率变大。
但是如果a从来没做过会导致永远不去尝试a。所以希望用R(tao^n-b),减去bais.
Critic

对状态判断的函数？

其他

image.png
参考

https://www.youtube.com/watch?v=W8XF3ME8G2I

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

河南新闻广播 · 河南疾控最新提示→

9 小时前

滑州百事通 · 滑县俩男子顺手牵“鸟”？鸟主人“摇人”了！

昨天

滑州百事通 · 滑县地头刚拍下的！超燃！超震撼！

昨天

河南新闻广播 · 李宇杰，被查

3 天前

滑州百事通 · 滑县裳华高级中学招生简章发布！计划招960人！

5 天前

材料人 · 南京工业大学顾忠伟/毛宏理Adv.Mater：新型微制造技术实现药物的预编程控释效果

9 月前

红餐网 · 诞生第一家喜茶的小城，正在被咖啡店包围

1 年前

宠物咖 · 上海市政府公布关于调整退休人员基本养老金的最新通知

4 年前

铁血网 · 勿谓言之不预！无视中国警告？看看69年前的美国是个什么下场！

5 年前

微信文章·运动健康·排行榜 · 微信文章·运动健康·排行榜-20180924

5 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号