专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
今天看啥  ›  专栏  ›  极市平台

首个无编码器的3D多模态大语言模型ENEL,7B参数即可媲美13B!

极市平台  · 公众号  ·  · 2025-03-05 22:00
    

文章预览

↑ 点击 蓝字  关注极市平台 编辑丨极市平台 极市导读   首次在3D多模态大语言模型中移除了编码器,让LLM直接处理3D编码任务。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 论文标题:  Exploring the Potential of Encoder-free Architectures in 3D LMMs 作者单位:上海人工智能实验室,西北工业大学,香港中文大学,清华大学 代码链接: https://github.com/Ivan-Tang-3D/ENEL 论文链接: https://arxiv.org/pdf/2502.09620v1 在二维视觉领域,无编码器架构已初步得到探索,但它是否能有效应用于3D理解场景仍然是一个未解之谜。本文中,我们首次全面探讨了无编码器架构在克服基于编码器的3D大规模多模态模型(LMMs)挑战方面的潜力。这些挑战包括无法适应不同点云分辨率,以及编码器提取的点特征未能满足大语言模型(LLMs)的语义需求。 我们确定了3D LMM去除编码器并使LL ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览