警惕！大语言模型在医学引用上仍存在重大缺陷！Nature子刊研究：过半回答无依据，知名AI接连翻车！

梅斯医学 · 公众号 · 医学 · 2025-05-04 07:50

文章预览

大语言模型（LLMs）在医疗领域的应用越来越广泛，从回答患者咨询到辅助临床决策，它们的表现令人瞩目。然而，这些模型提供的信息是否真的可靠？近日，斯坦福大学的研究团队在《Nature Communications》上发表研究，通过自动化评估框架SourceCheckup，首次系统评估了主流LLMs在医学引用中的表现。结果显示， 50%-90%的LLM回答未被其引用的文献完全支持，部分甚至与文献矛盾。即使是接入实时搜索的GPT-4o，仍有30%的独立回答无依据，近半数回答存在漏洞！研究背景： LLMs的“幻觉”与医学应用的“信任危机” 随着技术的进步，LLMs 在医疗领域的潜力不断被挖掘。 LLMs虽在医学考试中表现优异，在医学执照考试中的表现甚至超过了人类医生，但其“幻觉”（生成无依据内容）问题在医疗场景中可能误导患者或医生。此前，FDA多次呼吁监管医疗LLMs，但缺 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博