看啥推荐读物
专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
今天看啥  ›  专栏  ›  AIGC开放社区

Arena-Hard:开源高质量大模型评估基准

AIGC开放社区  · 公众号  ·  · 2024-04-23 08:22
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!开发一个安全、准确的大模型评估基准通常需要包含三个重要内容:1)稳定识别模型的能力;2)反映真实世界使用情况中的人类偏好;3)经常更新以避免过拟合或测试集泄漏。但传统的基准测试通常是静态的或闭源的,同时大模型的技术发展和功能迭代比较,这凸显了建立具有高可分离性评估基准的必要性。大模型研究组织Lmsys Org则开源了Arena-Hard。这是一个全新高质量大模型评估基准。开源地址:https://github.com/lm-sys/arena-hardLmsys将新的基准测试平台 Arena Hard v0.1 与当前领先的聊天 大模型基准测试 MT Bench 进行比较。结果显示,Arena Hard v0.1 相对于 MT Bench 提供了明显更强的可分离性,且置信区间 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照