作者|谷歌大脑研究员 Aleksandra Faust 等
译者|盖磊
编辑|Debra
AI 前线导读:在机器人领域,强化学习和控制反馈用于帮助机器人实现特定的目标。近日,谷歌大脑研究团队公布了一篇最新论文,提出利用机器人领域已有的研究工作,将通用计算形式化定义为一种反馈控制问题,进而克服了存在于传统过程语言编程中的一些限制,即韧性计算和提前终止问题。该论文提出,程序计算是一种变量空间中的轨迹生成问题,进而将程序计算转变为顺序决策制定问题,使用强化学习和李雅普诺夫稳定性理论分析,实现具备韧性计算和稳定向目标推进的智能体。论文使用该方法实现计算机领域的经典排序运算,并进行了实验评估。结果表明,强化学习排序智能体可稳
………………………………