迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

量子位 · 公众号 · AI · 2025-03-17 10:21

文章预览

允中发自凹非寺量子位 | 公众号 QbitAI 7B小模型+3.8万条训练数据，就能让音频理解和推断评测基准MMAU榜单王座易主？受到DeepSeek-R1中强化学习算法的启发，小米大模型团队对阿里的Qwen2-Audio-7B模型进行了微调。结果模型在MMAU上的准确率从49.2%提升到了64.5% （涨幅31%），比以前霸榜的GPT-4o还高出近10个百分点。 MMAU是一个由一万条涵盖语音、环境声和音乐的音频样本构成的评测基准，难度非常高，人类专家的成绩为82.2%。来自阿里的 Qwen2-Audio-7B 模型在此评测集上的准确率为49.2%，经小米大模型团队用清华大学发布的AVQA数据集，使用SFT微调后提升到了51.8%。这样的提升并不明显，而当小米团队选择改用DeepSeek-R1的GRPO算法时，发现获得了巨大的性能提升，一举达到了MMAU的新SOTA。目前，小米大模型团队已经把训练代码、模型参数开源，并提供了技术 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博