文章预览
随着人工智能系统,特别是大型语言模型 large language models (LLMs)越来越多地集成到决策过程中,信任其输出的能力,至关重要。为了赢得人类的信任,必须对大型语言模型LLM进行良好的校准,以便准确地评估和传达其预测正确的可能性。尽管最近的工作集中在大型语言模型LLM的内部信心上,但对如何有效地向用户传达不确定性的了解较少。 今日,美国 加利福尼亚大学(University of California)Mark Steyvers等,在Nature Machine Intelligence上发文,探讨了校准差距,指的是人类对大型语言模型LLM生成答案的信心与模型的实际信心之间差异,以及区分差距,反映了人类和模型区分正确答案和错误答案的能力。 多项选择题和简答题的实验表明,当提供默认解释时,用户倾向于高估大型语言模型LLM回答的准确性。此外,较长的解释,会增加了用户的信心,即使额外长
………………………………