讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

具身智体接口:具身决策的 LLM 基准测试

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-21 00:15
    

文章预览

24年11月来自斯坦福、西北大学、亚马逊公司和MIT的论文“Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making”。 目的是评估大语言模型 (LLM) 在具身决策中的表现。虽然大量的工作已经利用 LLM 在具身环境中进行决策,但仍然缺乏对其性能的系统了解,因为它们通常应用于不同的领域、用于不同的目的,并且基于不同的输入和输出构建。此外,现有的评估往往仅仅依赖于最终的成功率,这使得很难确定 LLM 缺少什么能力以及问题出在哪里,这反过来又阻碍了具身智体有效和有选择地利用 LLM。为了解决这些限制,提出一个泛化接口 (具身智体接口),支持各种类型任务的形式化和基于 LLM 模块的输入输出规范。具体来说,基于此能够统一 1)涉及状态和时间扩展目标的广泛具身决策任务,2)四个常用的基于 LLM 决策模块:目标解释、子目标分解、动 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览