注册登录

专栏名称: GLM大模型

拥抱创新、追求极致。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

环保人 · 渉刑案件的专家：环评把化学品废包装袋都写为危 ...· 21 小时前

环保人 · 文件上新！危废有关精彩技术问答汇总（免费公示 ...· 3 天前

环保人 · 文件上新！危废有关精彩技术问答汇总（免费公示 ...· 4 天前

环保人 · 专家让不停增加内容，让改扩建环评表的原有项目 ...· 4 天前

环保人 · 企业不愿意将废水站池体加盖密闭，环评师问有什 ...· 5 天前

今天看啥 › 专栏 › GLM大模型

AlignBench：专为「中文 LLM」而生的对齐评测

GLM大模型 · 公众号 · · 2023-12-12 15:50

对齐（Alignment），即大语言模型（LLM）与人类意图的对齐。换句话说，即让 LLM 生成结果更符合人类预期，这可能包括遵循人类的指令，理解人类的意图，进而能够产生有帮助的回答等。对齐是 LLM 能否在实际场景中得到真正应用的关键因素。而如何评估模型的对齐水平同样至关重要 —— 没有评测，就不知道优劣。但目前为止，在中文评测领域关于对齐的评测，依然是一片空白。首先，广泛使用的一些评测数据集，如 MMLU，C-Eval 等，和真实使用场景的差别较大，并不能有效评估模型的指令遵循能力。其次，针对对齐水平的英文评测数据集，如 MT-Bench，AlpacaEval等，受限于其语言、数量、评测方式，也并不能有效评估中文大模型的对齐水平。基于以上考虑，以及实际中的需要，我们推出了 AlignBench。这是一个多维度、综合性的评测基准。据我们所知， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

环保人 · 渉刑案件的专家：环评把化学品废包装袋都写为危废，太坑了

21 小时前

环保人 · 文件上新！危废有关精彩技术问答汇总（免费公示噪声预测双碳lims等）

3 天前

环保人 · 文件上新！危废有关精彩技术问答汇总（免费公示噪声预测双碳lims等）

4 天前

环保人 · 专家让不停增加内容，让改扩建环评表的原有项目部分越写越繁？请看环境部和省厅发文明确规定

4 天前

环保人 · 企业不愿意将废水站池体加盖密闭，环评师问有什么文件明确要求不？请看环境部文件明确规定

5 天前

地产壹线自选完美模式 · 2023.2.27 华润广州万象城悦府深圳圆桌中国

7 月前

上海长宁 · 新华社记者专访钟鸣：当前上海抗疫救治态势怎么样？

2 年前

证券市场红周刊 · 大力推进固危废资源化高能环境上半年归母净利上涨44.91%

2 年前

科学家庭育儿 · 4个月娃接种疫苗致残！这6种必打疫苗“亦正亦邪”！高度警惕！

3 年前

人民网 · 促进二手车流通发展 “消费新引擎”研讨会召开

4 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号