开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

量子位 · 公众号 · AI · 2025-05-11 12:20

文章预览

ModelScope团队投稿量子位 | 公众号 QbitAI OpenAI GPT-4o发布强大图片生成能力后，业界对大模型生图能力的探索向全模态方向倾斜，训练全模态模型成研发重点。开源的MLLMs和扩散模型已经过大规模预训练，其从零开始训练统一任务，不如取长补短，将MLLMs的语言建模能力，与扩散模型的像素级图像建模能力，进行有机的结合。基于这个思路，ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型 Nexus-Gen ，在图像质量和编辑能力上达GPT-4o同等水平，并将成果全方位开源，望引发开发者讨论，促进All-to-All模型领域发展。模型先进行图像生成，然后进行图像理解的可视化案例： Nexus-Gen技术细节总体框架 Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线，融合了SOTA MLLMs的强大文本预测能力和Diffusion模型的强大图像渲染能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

AI前线 · 砸65亿美元招揽58岁乔布斯门生！55名苹果元老工程师尽归OpenAI，奥特曼终拿下“盯了”两年多的AI产品！

13 小时前

量子位 · 奥特曼64亿美元联手强纳肾：OpenAI冲刺硬件iPhone时刻

14 小时前

黄建同学 · Optimus 进展：现在已经能够将人类视频中的大部分学习成果直-20250521214509

昨天

量子位 · 英伟达让机器人「做梦学习」，靠梦境实现真·从0泛化

昨天

黄建同学 · #谷歌新款AI模型Veo3# 可同时生成视频与+音频Google-20250521082714

昨天

广州日报 · 589套正式交楼，广州一村村民喜提新房过年

4 月前