详解大模型评测工作流，以OpenCompass为例

OpenMMLab · 公众号 · · 2023-10-13 19:09

写在前面大家好，我是刘聪NLP。目前很多机构都投身于基座模型训练、chat模型训练领域，要在这个领域中做到比别人更好的效果，需要相当多的财力、物力。所幸整个大模型领域中，除了微调训练外，还是有很多亟待解决的问题，例如大模型的应用研发、大模型的评测等。今天给大家带来一篇来自邱震宇大佬（知乎@邱震宇）的大模型的评测分析。知乎：https://zhuanlan.zhihu.com/p/652688939有关大模型的评测，想必大家经常会看到相关新闻。因为每次有一个开源或者闭源的大模型发布出来，必然会发布自己在某某评测上的效果。或者有一些机构会专门做一些大模型的榜单，从多个不同维度来对大模型进行打分排名。目前大部分的企业机构受限于成本、数据隐私合规等因素，不会使用GPT4的服务，也无法自己训一个强力的基座模型，只能依赖于开源模型。然 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博