专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
目录
今天看啥  ›  专栏  ›  智东西

DeepSeek官宣新版R1测评成绩,写作幻觉率降低近50%

智东西  · 公众号  · 科技媒体  · 2025-05-29 21:02
    

主要观点总结

DeepSeek发布了最新开源的DeepSeek-R1-0528模型,其在数学、编程和通用逻辑等方面的基准测试成绩超越了旧版Qwen3-235B和新版Qwen3-8B模型。此外,新模型还在AIME 2025测试中的准确率显著提升,并对“幻觉”问题进行了优化。该模型在改写润色、总结摘要和阅读理解等场景中的表现有所改善。

关键观点总结

关键观点1: DeepSeek-R1-0528模型的发布和超越旧版的表现

DeepSeek公布了最新开源的DeepSeek-R1-0528模型,该模型在数学、编程和通用逻辑等多个基准测评中全面超越了旧版Qwen3-235B和新版Qwen3-8B。

关键观点2: AIME 2025测试的准确率提升

相较于旧版R1,新版DeepSeek-R1模型在复杂推理任务中的表现显著提升,例如在AIME 2025测试中准确率提升至87.5%。

关键观点3: 针对“幻觉”问题的优化

新版DeepSeek R1模型针对改写润色、总结摘要、阅读理解等场景中的“幻觉”问题进行了优化,幻觉率降低了45~50%左右。

关键观点4: 模型的进一步改进和优化

更新后的DeepSeek-R1模型针对议论文、小说、散文等文体进行了进一步优化,并仍然使用DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,提升了模型的思维深度与推理能力。


文章预览

智东西5月29日消息,刚刚,DeepSeek公布了今日最新开源的DeepSeek-R1-0528的基准测试成绩。此前昨日晚间,DeepSeek官方网站、APP或小程序已上线新版R1。 新版R1模型在数学、编程与通用逻辑等多个基准测评中全面超越了Qwen3-235B,以及旧版DeepSeek-R1。同时其表现接近OpenAI o3与Gemini-2.5-Pro。 相较于旧版R1,新版模型在复杂推理任务中的表现有了显著提升。例如在AIME 2025测试中,新版模型准确率由旧版的70%提升至87.5%。 同时,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。DeepSeek蒸馏DeepSeek-R1-0528的思维链后训练Qwen3-8B Base,得到了DeepSeek-R1-0528-Qwen3-8B。该模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B (+10.0%),与Qwen3-235B相当。 此外值得一提的是,新版DeepSeek R1针对“幻觉”问题进行了优化。与旧版相比 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览