文章预览
大家好,我是 Ai 学习的老章 DeepSeek-R1-0528 很强 DeepSeek R1 最新版本模型,排名第三🥉 但,即便是量化版本地部署起来也成本巨高 我还是关心 DeepSeek 同步开源的一个小型—— DeepSeek-R1-0528-Qwen3-8B 看看其能否低成本地替换某些工作流中的 Qwen3:32B 本文,我用2张 4090 显卡部署它,然后和 4 卡运行起来的 Qwen3:32B 做个对比 DeepSeek-R1-0528-Qwen3-8B 这个模型是从 DeepSeek-R1-0528 的思维链蒸馏出来用于后训练 Qwen3 8B Base 而得。 通过蒸馏技术,在 AIME 2024 上达到 86.0,超越 Qwen3-8B (+10%),媲美更大模型! DeepSeek-R1-0528-Qwen3-8B 在 2024 年美国数学邀请赛(AIME)上的开源模型中取得了最先进(SOTA)的性能,比 Qwen3 8B 提高了 10.0%,性能与 Qwen3-235B-thinking 相当。 AIME 24 AIME 25 HMMT Feb 25 GPQA Diamond LiveCodeBench (2408-2505) Qwen3-235B-A22B 85.7 81.5 62.5 71.1 66.5 Qwen3-32B 81.4 72.9 - 68.4 - Qwen3-8B 76.0 67.3
………………………………