专栏名称: Ai学习的老章
长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
目录
今天看啥  ›  专栏  ›  Ai学习的老章

DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型,双 4090本地部署,深得我心

Ai学习的老章  · 公众号  ·  · 2025-05-30 15:44
    

文章预览

大家好,我是 Ai 学习的老章 DeepSeek-R1-0528 很强 DeepSeek R1 最新版本模型,排名第三🥉 但,即便是量化版本地部署起来也成本巨高 我还是关心 DeepSeek 同步开源的一个小型—— DeepSeek-R1-0528-Qwen3-8B 看看其能否低成本地替换某些工作流中的 Qwen3:32B 本文,我用2张 4090 显卡部署它,然后和 4 卡运行起来的 Qwen3:32B 做个对比 DeepSeek-R1-0528-Qwen3-8B 这个模型是从 DeepSeek-R1-0528 的思维链蒸馏出来用于后训练 Qwen3 8B Base 而得。 通过蒸馏技术,在 AIME 2024 上达到 86.0,超越 Qwen3-8B (+10%),媲美更大模型! DeepSeek-R1-0528-Qwen3-8B  在 2024 年美国数学邀请赛(AIME)上的开源模型中取得了最先进(SOTA)的性能,比 Qwen3 8B 提高了 10.0%,性能与 Qwen3-235B-thinking 相当。 AIME 24 AIME 25 HMMT Feb 25 GPQA Diamond LiveCodeBench (2408-2505) Qwen3-235B-A22B 85.7 81.5 62.5 71.1 66.5 Qwen3-32B 81.4 72.9 - 68.4 - Qwen3-8B 76.0 67.3 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览