专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单

量子位  · 公众号  · AI  · 2025-03-17 10:21
    

文章预览

允中 发自 凹非寺 量子位 | 公众号 QbitAI 7B小模型+3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主? 受到DeepSeek-R1中强化学习算法的启发 ,小米大模型团队对阿里的Qwen2-Audio-7B模型进行了微调。 结果模型在MMAU上的准确率从49.2%提升到了64.5% (涨幅31%) ,比以前霸榜的GPT-4o还高出近10个百分点。 MMAU是一个由一万条涵盖语音、环境声和音乐的音频样本构成的评测基准,难度非常高,人类专家的成绩为82.2%。 来自阿里的 Qwen2-Audio-7B 模型在此评测集上的准确率为49.2%,经小米大模型团队用清华大学发布的AVQA数据集,使用SFT微调后提升到了51.8%。 这样的提升并不明显,而当小米团队选择改用DeepSeek-R1的GRPO算法时,发现获得了巨大的性能提升,一举达到了MMAU的新SOTA。 目前,小米大模型团队已经把训练代码、模型参数开源,并提供了技术 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览