文章预览
项目主页:https://github.com/hustvl/Senna 论文链接:https://arxiv.org/abs/2410.22313 概述 端到端自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然存在局限性,这是因为端到端模型缺乏常识知识和逻辑思维。而视觉语言多模态大模型(Large Vision-Language Models,LVLM),例如GPT-4O,已经展现出极强的视觉理解能力和分析能力,可以很好的与端到端模型互为补充,充当驾驶决策的“大脑”。基于这个思路,我们提出了一种连接视觉语言多模态大模型和端到端模型的 智驾 系统Senna,针对端到端模型鲁棒性差,泛化性弱问题,行业首创“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式,打造“大模型+端到端”的下一代架构,实现安全,高效,拟人的 智能 驾驶 。 经多个 数据集上 的大量实验证明 ,Senna 具有
………………………………