讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

大语言模型的评估:综述

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-05-23 00:38
    

文章预览

23年8月 来自吉林大学、微软、中科院自动化所、CMU、西湖大学、北大、UIC和香港科技大学等 的综述论文“A Survey on Evaluation of Large Language Models“。 大语言模型(LLM)的评估变得越来越重要,不仅在任务层面,而且在社会层面,是为了更好地了解其潜在风险。本文对LLM的评估方法进行了全面的综述,重点关注三个关键维度:评估什么、在哪里评估以及如何评估。首先,从评估任务的角度进行了概述,包括一般的自然语言处理任务、推理、医学使用、伦理、教育、自然科学和社会科学、智体应用和其他领域。其次,通过深入研究评估方法和基准来回答“在哪里”和“如何”的问题,这些方法和基准是评估LLM绩效的关键组成部分。然后,总结LLM在不同任务中的成功和失败案例。最后,阐明LLM评估的未来要面临的几个挑战。 如图是该文的架构: AI模型评 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览