三大模型巨头比拼思考「幻觉」：DeepSeek 不敌 ChatGPT，Gemini 用词最少

AI科技评论 · 公众号 · · 2025-03-20 19:00

文章预览

基础模型在兼顾幻觉与推理能效上仍有很长的路要走。作者丨郑佳美编辑丨马晓宁近日，智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验：提供相同的提示词，让 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 进行推理分析，研究三个模型在应对幻觉问题上的性能对比。其研究发现：ChatGPT o3-mini 在应对大模型幻觉问题上占有绝对优势，能够灵活切换不同的策略进行思考推理。相比之下，DeepSeek R1 和 Gemini 2.0 Flash 虽然能够尝试使用策略，但表现了出对这些策略的抗拒，且推理过程存在错误或混乱。在面对同一个问题时，三个思考模型在进行推理的过程中也展现出了较大的差异：其中， Gemini 2.0 Flash 的思维链用词最少，ChatGPT o3-mini 是其约 3 到 10 倍，DeepSeek R1 是其大约 12 到 36 倍。而用词更多，往往意味着推理的算力成本更高。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博