医学考试满分，却败走临床实战！研究警示：真实场景正确率暴跌50%，沟通鸿沟或成AI医疗助手主要短板

梅斯医学 · 公众号 · 医学 · 2025-05-28 07:50

文章预览

大型语言模型（LLMs）在医学考试中屡获高分，但真实医疗场景中能否担起重任？一项由牛津大学等机构的研究人员开展的随机对照试验揭示：LLMs的医学知识储备无法有效转化为用户的实际决策能力，人类与AI的“沟通鸿沟”或成致命短板！研究方法研究团队测试了GPT-4o、Llama 3、Command R+三款主流LLM在10个医疗场景中的表现，涉及不同紧急程度的健康问题，如肺炎、胆结石、过敏性鼻炎等。研究团队先由三名医生共同拟定场景，并就每个场景的最佳应对措施达成一致意见。随后，四名其他医生为各场景提供鉴别诊断列表。基于这些列表，研究团队制定了针对每种病症的相关条件“黄金标准”清单。研究共招募了1298名英国参与者，参与者需就分配到的医疗场景给出应对措施，并列出做出此决定所考虑的医学病症。其中，对照组可借助任何日常在家使 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博