今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

BEVWorld:通过统一 BEV 潜空间实现自动驾驶的多模态世界模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-06 00:02
    

文章预览

24年7月来自百度的论文“BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space”。 世界模型因其预测潜在未来场景的能力,在自动驾驶领域受到越来越多的关注。本文提出 BEVWorld,它将多模态传感器输入token化为统一且紧凑的鸟瞰图 (BEV) 潜空间,用于环境建模。世界模型由两部分组成:多模态 token化器和潜 BEV 序列扩散模型。多模态token化器首先对多模态信息进行编码,解码器能够以自监督的方式通过光线投射渲染将潜 BEV tokens重建为 LiDAR 和图像观测。然后,潜 BEV 序列扩散模型以动作tokens作为条件预测未来场景。 代码将在 GitHub - zympsyche/BevWorld 上提供。 近年来,自动驾驶取得了重大进展,但仍面临诸多挑战。首先,训练可靠的自动驾驶系统需要大量精确标注的数据,这需要大量资源和时间。因此,探索如何在自监督学习范式中利用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览