大语言模型的评估：综述

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-05-23 00:38

文章预览

23年8月来自吉林大学、微软、中科院自动化所、CMU、西湖大学、北大、UIC和香港科技大学等的综述论文“A Survey on Evaluation of Large Language Models“。大语言模型（LLM）的评估变得越来越重要，不仅在任务层面，而且在社会层面，是为了更好地了解其潜在风险。本文对LLM的评估方法进行了全面的综述，重点关注三个关键维度：评估什么、在哪里评估以及如何评估。首先，从评估任务的角度进行了概述，包括一般的自然语言处理任务、推理、医学使用、伦理、教育、自然科学和社会科学、智体应用和其他领域。其次，通过深入研究评估方法和基准来回答“在哪里”和“如何”的问题，这些方法和基准是评估LLM绩效的关键组成部分。然后，总结LLM在不同任务中的成功和失败案例。最后，阐明LLM评估的未来要面临的几个挑战。如图是该文的架构： AI模型评 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博