看啥推荐读物

专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Arena-Hard：开源高质量大模型评估基准

AIGC开放社区 · 公众号 · · 2024-04-23 08:22

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！开发一个安全、准确的大模型评估基准通常需要包含三个重要内容：1）稳定识别模型的能力；2）反映真实世界使用情况中的人类偏好；3）经常更新以避免过拟合或测试集泄漏。但传统的基准测试通常是静态的或闭源的，同时大模型的技术发展和功能迭代比较，这凸显了建立具有高可分离性评估基准的必要性。大模型研究组织Lmsys Org则开源了Arena-Hard。这是一个全新高质量大模型评估基准。开源地址：https://github.com/lm-sys/arena-hardLmsys将新的基准测试平台 Arena Hard v0.1 与当前领先的聊天大模型基准测试 MT Bench 进行比较。结果显示，Arena Hard v0.1 相对于 MT Bench 提供了明显更强的可分离性，且置信区间 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博