专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

UniToken:为统一多模态理解与生成打造信息完备的视觉表征

我爱计算机视觉  · 公众号  ·  · 2025-04-22 14:32
    

文章预览

关注公众号,发现CV技术之美 来自复旦大学和美团的研究者们提出了 UniToken  —— 一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。 UniToken通过融合连续和离散视觉表征,有效缓解了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新的范式。为了便于社区内研究者们复现与进一步开发,代码与模型已全部开源👇 论文标题:UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding 论文链接:https://arxiv.org/pdf/2504.04423 代码地址:https://github.com/SxJyJay/UniToken 任务背景:统一建模的挑战 在传统图文理解或图像生成模型中,其视觉编码的底层特性差异较大。譬如图文理解模型(如LLaVA、Qwen-VL等)要求从图像中抽取高层语义,从而进一步结合 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览