注册
登录
看啥推荐读物
专栏名称:
AI开发者
AI研习社,雷锋网旗下关注AI开发技巧及技术教程订阅号。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
知乎回答RSS订阅方法
知乎专栏 RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
黄建同学
·
𝐌𝐮𝐬𝐞𝐕可以了解一下:基于扩散的虚拟人物视 ...
·
昨天
深度学习与NLP
·
如何看待2024年4月23日美国全面废除竞业协议?
·
2 天前
深度学习与NLP
·
越来越多高校开始取消硕士研究生新生奖学金,如 ...
·
2 天前
量化投资与机器学习
·
Pylon框架:在PyTorch中实现带约束 ...
·
3 天前
爱可可-爱生活
·
【LangChain Rust:用 ...
·
3 天前
今天看啥
›
专栏
›
AI开发者
利用好奇心做稀疏反馈任务的学习
AI开发者
·
公众号
·
AI
· 2018-07-23 08:00
AI 研习社按:近期,Unity 发布了版本 0.4 的机器学习智能体工具包(ML-Agent toolkit v0.4),其中最为突出的新功能是通过额外的基于好奇心的内在激励进行智能体的训练。由于这个新功能在解释时有很多方面需要解开,作者 Arthur Juliani 独立编写了一篇文章进行描述。AI 研习社把这篇文章编译如下。在原理上,如果奖励出现的几率不高或稀疏的分布情况下,现在是有更有效的方式让智能体进行环境感知的。这些智能体可以通过使用一种基于对结果好奇的程度进行奖励的方式对这样的环境进行探索。在这篇文章中,作者讲述了这种方式的工作原理并且展现了如何通过使用这种方式解决一个实际的任务,同时与原始版本的强化学习方法进行对比,表现出了这种新方法的优越性 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
分享到微博
推荐文章
黄建同学
·
𝐌𝐮𝐬𝐞𝐕可以了解一下:基于扩散的虚拟人物视频生成框架-20240427175544
昨天
深度学习与NLP
·
如何看待2024年4月23日美国全面废除竞业协议?
2 天前
深度学习与NLP
·
越来越多高校开始取消硕士研究生新生奖学金,如何看待此事?取消原因是什么?
2 天前
量化投资与机器学习
·
Pylon框架:在PyTorch中实现带约束的损失函数
3 天前
爱可可-爱生活
·
【LangChain Rust:用 Rust 语言实现的 Lan-20240425134653
3 天前
DataFunTalk
·
内推 | 中国移动研究院推荐算法
2 年前
香侬科技
·
香侬读 | 自训练 + 预训练 = 更好的自然语言理解模型
3 年前
最高人民法院
·
【十三届全国人大常委会第十六次会议在京闭幕】十三届全国人大常委会-20200224222603
4 年前
中国药物经济学
·
我国分级诊疗制度的现状与对策分析
5 年前
为你辩护网
·
8月7日卓安大讲堂|陈瑞华:对非法证据排除规则新变化的最新解读
6 年前