主要分享机器人/自动驾驶智能控制等相关技术。
今天看啥  ›  专栏  ›  机器人规划与控制研究所

自动驾驶算法——理解强化学习(一)

机器人规划与控制研究所  · 公众号  ·  · 2024-12-04 22:08
    

文章预览

强化学习位于多个领域的交叉点,但其基本理念相同: 决策科学。 在计算机科学中,它是机器学习;在神经科学中,它是奖励系统。在工程学中,它是最优控制。 为什么 RL 与其他机器学习范式 + 领域不同? 没有监督者,只有奖励 RL 中的反馈通常是延迟的,而不是自发的 时间对于强化学习等动态系统的性能起着重要作用 代理的行为会影响其收到的后续数据(闭环反馈) 现在有通用应用程序吗? 乘坐直升机进行特技飞行 击败 GO、Atari 等游戏世界冠军 投资组合 步行机器人 定义强化学习问题 奖励 Rₜ 是一种通用标量反馈信号,可帮助代理了解其在步骤 t 的表现如何。一般来说,代理的工作是 最大化累积奖励 。RL 基于这种“奖励假设”;所有目标都可以通过最大化预期累积奖励来描述 。 来源 这里的目标是什么? 选择某些行动来最大化未来的总 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览