今天看啥  ›  专栏  ›  AI科技评论

三大模型巨头比拼思考「幻觉」:DeepSeek 不敌 ChatGPT,Gemini 用词最少

AI科技评论  · 公众号  ·  · 2025-03-20 19:00
    

文章预览

基础模型在兼顾幻觉与推理能效上仍有很长的路要走。 作者丨郑佳美 编辑丨马晓宁 近日,智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验:提供相同的提示词,让 Gemini 2.0  Flash、ChatGPT o3-mini、DeepSeek R1 进行推理分析,研究三个模型在应对幻觉问题上的性能对比。 其研究发现:ChatGPT o3-mini 在应对大模型幻觉问题上占有绝对优势,能够灵活切换不同的策略进行思考推理。 相比之下,DeepSeek R1 和 Gemini  2.0  Flash 虽然能够尝试使用策略,但表现了出对这些策略的抗拒,且推理过程存在错误或混乱。 在面对同一个问题时,三个思考模型在进行推理的过程中也展现出了较大的差异: 其中, Gemini  2.0  Flash 的思维链用词最少,ChatGPT o3-mini 是其约 3 到 10 倍,DeepSeek R1 是其大约 12 到 36 倍。而用词更多,往往意味着推理的算力成本更高。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览