自动评估大型视觉-语言模型对自动驾驶极端情况的处理

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-04-24 02:02

24年4月大连理工、香港科技大学、香港中文大学和华为诺亚实验室的论文“Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases”。大视觉-语言模型（LVLM）由于具有理解图像和视频的视觉推理能力，在自动驾驶领域受到了广泛关注，极大地推动了可解释的端到端自动驾驶的发展。然而，目前对LVLM的评估主要集中在常见场景下的多方面能力，缺乏自动驾驶环境下的可量化和自动化的评估，更不用说即使是最先进的自动驾驶感知系统很难处理的严峻极端路况。本文提出CODA-LM，一种自动驾驶视觉语言基准，它为可解释的自动驾驶提供一个对 LVLM 的自动定量评估，包括一般感知、区域感知和驾驶建议。CODA-LM 利用文本来描述道路图像，利用纯文本大语言模型 (LLM)，无需图像输入来评估 LVLM 在自动驾驶场景中的能力，这表明比 LVLM 评判更符合人类 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博