专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题

量子位  · 公众号  · AI  · 2025-05-11 12:20
    

文章预览

ModelScope团队 投稿 量子位 | 公众号 QbitAI OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。 开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。 基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型 Nexus-Gen ,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。 模型先进行图像生成,然后进行图像理解的可视化案例: Nexus-Gen技术细节 总体框架 Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线,融合了SOTA MLLMs的强大文本预测能力和Diffusion模型的强大图像渲染能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览