注册登录

看啥推荐读物

专栏名称: TensorFlow

Google官方账号，分享人工智能和TensorFlow相关的最新消息、技术资源、活动和实践案例。联系我们：tfchina@google.com

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

深度学习与NLP · 如何看待 vivo 将发布大模型加持的 ...· 20 小时前

深度学习与NLP · 拜登声称有关 TikTok ...· 20 小时前

宝玉xp · 更像是Mistral找吴恩达帮忙开课推广// ...· 3 天前

爱可可-爱生活 · 【新书：《AI辅助编程》，关于如何利用人工智 ...· 4 天前

爱可可-爱生活 · 【关于数据投毒和后门攻击的精选论文和资源列表 ...· 4 天前

今天看啥 › 专栏 › TensorFlow

递归分类：在强化学习中用示例代替奖励

TensorFlow · 公众号 · AI · 2021-04-13 18:59

发布人：Google Research 学生研究员 Benjamin Eysenbach机器人研究的总体目标是设计出这样的系统：能够协助人类完成各种可以改善日常生活的任务。大多数用于教导智能体执行新任务的强化学习算法都需要使用奖励函数 (Reward Function)。该函数在智能体采取的行动可以带来良好结果时，会向智能体提供正向反馈。然而，在实际当中，这些奖励函数的指定过程相当繁琐，并且在没有明确目标的情况下非常难以定义，例如房间是否干净或门是否关得够严实。即使是容易描述的任务，要去实际衡量其完成情况也很困难，可能需要在机器人环境中添加许多传感器。添加许多传感器https://ai.googleblog.com/2016/10/how-robots-can-acquire-new-skills-from.html另一种做法是使用示例训练模型，即所谓的基于 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

深度学习与NLP · 如何看待 vivo 将发布大模型加持的 OriginOS4，是否意味着手机厂商的系统在进入大模型时代？

20 小时前

深度学习与NLP · 拜登声称有关 TikTok 的立法提案如获通过将签署成为法律，特朗普则反对禁令，如何看待此事？

20 小时前

宝玉xp · 更像是Mistral找吴恩达帮忙开课推广//@最好不说:吴恩达真-20240424013741

3 天前

爱可可-爱生活 · 【新书：《AI辅助编程》，关于如何利用人工智能开发工具进行代码创-20240422204950

4 天前

爱可可-爱生活 · 【关于数据投毒和后门攻击的精选论文和资源列表，包括相关的防御方法-20240422125048

4 天前

YNTV2都市条形码 · 最新放假通知！

9 月前

PCEC 可持续发展服务 · 第九十四期“PCEC大讲堂”精彩回顾丨“磷钛锂硫元素资源共整耦合生产储能电池材料的技术创新机遇”

1 年前

热资讯集中营 · 2022-7-15资讯早知道

1 年前

HACK学习呀 · 二进制安全学习规划指南

4 年前

商界 · 《深夜食堂》扑街，都是广告“尬植”的锅？

6 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号