主要观点总结
DeepSeek发布了最新开源的DeepSeek-R1-0528模型,其在数学、编程和通用逻辑等方面的基准测试成绩超越了旧版Qwen3-235B和新版Qwen3-8B模型。此外,新模型还在AIME 2025测试中的准确率显著提升,并对“幻觉”问题进行了优化。该模型在改写润色、总结摘要和阅读理解等场景中的表现有所改善。
关键观点总结
关键观点1: DeepSeek-R1-0528模型的发布和超越旧版的表现
DeepSeek公布了最新开源的DeepSeek-R1-0528模型,该模型在数学、编程和通用逻辑等多个基准测评中全面超越了旧版Qwen3-235B和新版Qwen3-8B。
关键观点2: AIME 2025测试的准确率提升
相较于旧版R1,新版DeepSeek-R1模型在复杂推理任务中的表现显著提升,例如在AIME 2025测试中准确率提升至87.5%。
关键观点3: 针对“幻觉”问题的优化
新版DeepSeek R1模型针对改写润色、总结摘要、阅读理解等场景中的“幻觉”问题进行了优化,幻觉率降低了45~50%左右。
关键观点4: 模型的进一步改进和优化
更新后的DeepSeek-R1模型针对议论文、小说、散文等文体进行了进一步优化,并仍然使用DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,提升了模型的思维深度与推理能力。
文章预览
智东西5月29日消息,刚刚,DeepSeek公布了今日最新开源的DeepSeek-R1-0528的基准测试成绩。此前昨日晚间,DeepSeek官方网站、APP或小程序已上线新版R1。 新版R1模型在数学、编程与通用逻辑等多个基准测评中全面超越了Qwen3-235B,以及旧版DeepSeek-R1。同时其表现接近OpenAI o3与Gemini-2.5-Pro。 相较于旧版R1,新版模型在复杂推理任务中的表现有了显著提升。例如在AIME 2025测试中,新版模型准确率由旧版的70%提升至87.5%。 同时,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。DeepSeek蒸馏DeepSeek-R1-0528的思维链后训练Qwen3-8B Base,得到了DeepSeek-R1-0528-Qwen3-8B。该模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B (+10.0%),与Qwen3-235B相当。 此外值得一提的是,新版DeepSeek R1针对“幻觉”问题进行了优化。与旧版相比
………………………………