专栏名称: 卡尔的AI沃茨
- 前阿里&百度大模型算法|AI创业者|擅长GPT开发及数字人应用- 创建开源AI学习体系learnprompt.pro,社群破万- 持续输出AI前沿科技资讯,关注我,让更多人成为AGI时代的创作者
目录
相关文章推荐
今天看啥  ›  专栏  ›  卡尔的AI沃茨

阿里开源“GPT-4o”,新Qwen2.5-Omni用“听说看想”感受真实世界

卡尔的AI沃茨  · 公众号  ·  · 2025-03-28 09:45
    

文章预览

连续三天没睡觉, 阿里新开源 Qwen2.5-Omni 把这周的 AI 浓度又推到了新高峰, 多了一个 Omini 后缀的 Qwen2.5 能听音频、看视频和开口说话,Qwen Chat 新上线的视频、语音实时通话的背后模型就是它。 看视频学冲咖啡的 GPT-4o 已经 low 了,学做菜才是正确打开方式。离谱的是这个模型大小才 7B,但凡有台 16GB 以上内存的电脑就可以无限使用。所以说这个小而全的模型含金量有多少? 在需要多模态的 OmniBench 上超过 Gemini 1.5 pro 达到最佳性能,在单模态任务中,音频超过了 Qwen2-Audio、图像超过 Qwen2.5 VL、在 NMOS (语音合成音频的自然度评估)上达到人类口语水平。 科普一下:多模态模型意味着 AI 能处理、分析、融合多种数据类型,包括但不限于文本、图像、音频、视频等 如果说去年我觉得多模态是锦上添花,在纯文本对话的环境里,让我可以偶尔聊聊天的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览