专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」

量子位  · 公众号  · AI  · 2025-04-28 11:43
    

主要观点总结

全球进入AI大模型的“多模态时间”,文章介绍了阶跃星辰发布的三款模型,包括图像编辑模型Step1X-Edit、多模态推理模型Step-R1-V-Mini和图生视频模型Step-Video-TI2V,展现了多模态技术的先进性和应用场景。阶跃星辰的多模态模型占比超七成,并已经开始在智能终端Agent上发力,与汽车、手机、具身智能、IoT等场景进行合作。文章指出技术纵深、开源开放和场景深耕对于AI模型的重要性,并认为AI大模型正在进入多模态时间。

关键观点总结

关键观点1: 阶跃星辰发布三款多模态模型

包括图像编辑模型Step1X-Edit、多模态推理模型Step-R1-V-Mini和图生视频模型Step-Video-TI2V,这些模型在多模态领域投入大、迭代快,展现了阶跃星辰的技术实力。

关键观点2: 阶跃星辰的多模态模型占比超七成

阶跃星辰的基座模型种类齐全,多模态模型占比超过七成,性能稳居第一梯队。

关键观点3: 阶跃星辰在智能终端Agent上的合作与发力

阶跃星辰与汽车、手机、具身智能、IoT等场景进行合作,推动终端Agent的智能化升级和体验的无缝连接。

关键观点4: 技术纵深、开源开放和场景深耕的重要性

文章指出技术纵深决定AI模型的天花板高度,开源开放加速生态裂变,场景深耕打通商业化命脉。拒绝多模态进化的AI模型和应用可能成为数字达尔文主义淘汰赛中的失落者。

关键观点5: AI大模型进入多模态时间

全球科技巨头正以多模态能力突破为核心展开新一轮竞赛,AI大模型正在进入多模态时间,从“文字处理器”进化为“世界解读者”。


文章预览

衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 全球AI大模型智能涌现,现在正在进入“多模态时间”。 一方面,全球业内各式各样的技术进展,都围绕多模态如火如荼展开。 另一方面,AI应用和落地的需求中,多模态也是最重要的能力。没有多模态技术,何谈应用和落地? 实际上,多模态的先锋共识和趋势,把代表性玩家的进展连点成线,也能看出来…… 看看行业公认的多模态卷王,阶跃星辰—— 刚刚过去的一个月,陆续上新的3款模型,全是多模态 ,有图生视频开源模型,有多模态推理模型,还有图像编辑开源模型。 模态丰富,上新频繁,性能出色。 之所以把阶跃的这些发布连点成线解读,也是因为阶跃从一开始的强落地和强应用属性。 目前,阶跃已发布的模型里,七成都是多模态。鉴于多模态是Agent的必备要素,今年阶跃化身「落地型玩家」的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览