专栏名称: 卡尔的AI沃茨

- 前阿里&百度大模型算法｜AI创业者｜擅长GPT开发及数字人应用- 创建开源AI学习体系learnprompt.pro，社群破万- 持续输出AI前沿科技资讯，关注我，让更多人成为AGI时代的创作者

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

阿里开源“GPT-4o”，新Qwen2.5-Omni用“听说看想”感受真实世界

卡尔的AI沃茨 · 公众号 · · 2025-03-28 09:45

文章预览

连续三天没睡觉，阿里新开源 Qwen2.5-Omni 把这周的 AI 浓度又推到了新高峰，多了一个 Omini 后缀的 Qwen2.5 能听音频、看视频和开口说话，Qwen Chat 新上线的视频、语音实时通话的背后模型就是它。看视频学冲咖啡的 GPT-4o 已经 low 了，学做菜才是正确打开方式。离谱的是这个模型大小才 7B，但凡有台 16GB 以上内存的电脑就可以无限使用。所以说这个小而全的模型含金量有多少？在需要多模态的 OmniBench 上超过 Gemini 1.5 pro 达到最佳性能，在单模态任务中，音频超过了 Qwen2-Audio、图像超过 Qwen2.5 VL、在 NMOS （语音合成音频的自然度评估）上达到人类口语水平。科普一下：多模态模型意味着 AI 能处理、分析、融合多种数据类型，包括但不限于文本、图像、音频、视频等如果说去年我觉得多模态是锦上添花，在纯文本对话的环境里，让我可以偶尔聊聊天的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博