DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型，双 4090本地部署，深得我心

Ai学习的老章 · 公众号 · · 2025-05-30 15:44

文章预览

大家好，我是 Ai 学习的老章 DeepSeek-R1-0528 很强 DeepSeek R1 最新版本模型，排名第三🥉 但，即便是量化版本地部署起来也成本巨高我还是关心 DeepSeek 同步开源的一个小型—— DeepSeek-R1-0528-Qwen3-8B 看看其能否低成本地替换某些工作流中的 Qwen3:32B 本文，我用2张 4090 显卡部署它，然后和 4 卡运行起来的 Qwen3:32B 做个对比 DeepSeek-R1-0528-Qwen3-8B 这个模型是从 DeepSeek-R1-0528 的思维链蒸馏出来用于后训练 Qwen3 8B Base 而得。通过蒸馏技术，在 AIME 2024 上达到 86.0，超越 Qwen3-8B (+10%)，媲美更大模型！ DeepSeek-R1-0528-Qwen3-8B 在 2024 年美国数学邀请赛（AIME）上的开源模型中取得了最先进（SOTA）的性能，比 Qwen3 8B 提高了 10.0%，性能与 Qwen3-235B-thinking 相当。 AIME 24 AIME 25 HMMT Feb 25 GPQA Diamond LiveCodeBench (2408-2505) Qwen3-235B-A22B 85.7 81.5 62.5 71.1 66.5 Qwen3-32B 81.4 72.9 - 68.4 - Qwen3-8B 76.0 67.3 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博