图像编辑开源新SOTA，来自多模态卷王阶跃！大模型行业正步入「多模态时间」

量子位 · 公众号 · AI · 2025-04-28 11:43

主要观点总结

全球进入AI大模型的“多模态时间”，文章介绍了阶跃星辰发布的三款模型，包括图像编辑模型Step1X-Edit、多模态推理模型Step-R1-V-Mini和图生视频模型Step-Video-TI2V，展现了多模态技术的先进性和应用场景。阶跃星辰的多模态模型占比超七成，并已经开始在智能终端Agent上发力，与汽车、手机、具身智能、IoT等场景进行合作。文章指出技术纵深、开源开放和场景深耕对于AI模型的重要性，并认为AI大模型正在进入多模态时间。

关键观点总结

关键观点1: 阶跃星辰发布三款多模态模型

包括图像编辑模型Step1X-Edit、多模态推理模型Step-R1-V-Mini和图生视频模型Step-Video-TI2V，这些模型在多模态领域投入大、迭代快，展现了阶跃星辰的技术实力。

关键观点2: 阶跃星辰的多模态模型占比超七成

阶跃星辰的基座模型种类齐全，多模态模型占比超过七成，性能稳居第一梯队。

关键观点3: 阶跃星辰在智能终端Agent上的合作与发力

阶跃星辰与汽车、手机、具身智能、IoT等场景进行合作，推动终端Agent的智能化升级和体验的无缝连接。

关键观点4: 技术纵深、开源开放和场景深耕的重要性

文章指出技术纵深决定AI模型的天花板高度，开源开放加速生态裂变，场景深耕打通商业化命脉。拒绝多模态进化的AI模型和应用可能成为数字达尔文主义淘汰赛中的失落者。

关键观点5: AI大模型进入多模态时间

全球科技巨头正以多模态能力突破为核心展开新一轮竞赛，AI大模型正在进入多模态时间，从“文字处理器”进化为“世界解读者”。

文章预览

衡宇发自凹非寺量子位 | 公众号 QbitAI 全球AI大模型智能涌现，现在正在进入“多模态时间”。一方面，全球业内各式各样的技术进展，都围绕多模态如火如荼展开。另一方面，AI应用和落地的需求中，多模态也是最重要的能力。没有多模态技术，何谈应用和落地？实际上，多模态的先锋共识和趋势，把代表性玩家的进展连点成线，也能看出来…… 看看行业公认的多模态卷王，阶跃星辰—— 刚刚过去的一个月，陆续上新的3款模型，全是多模态，有图生视频开源模型，有多模态推理模型，还有图像编辑开源模型。模态丰富，上新频繁，性能出色。之所以把阶跃的这些发布连点成线解读，也是因为阶跃从一开始的强落地和强应用属性。目前，阶跃已发布的模型里，七成都是多模态。鉴于多模态是Agent的必备要素，今年阶跃化身「落地型玩家」的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博