今天看啥  ›  专栏  ›  OpenMMLab

详解大模型评测工作流,以OpenCompass为例

OpenMMLab  · 公众号  ·  · 2023-10-13 19:09
写在前面大家好,我是刘聪NLP。目前很多机构都投身于基座模型训练、chat模型训练领域,要在这个领域中做到比别人更好的效果,需要相当多的财力、物力。所幸整个大模型领域中,除了微调训练外,还是有很多亟待解决的问题,例如大模型的应用研发、大模型的评测等。今天给大家带来一篇来自邱震宇大佬(知乎@邱震宇)的大模型的评测分析。知乎:https://zhuanlan.zhihu.com/p/652688939有关大模型的评测,想必大家经常会看到相关新闻。因为每次有一个开源或者闭源的大模型发布出来,必然会发布自己在某某评测上的效果。或者有一些机构会专门做一些大模型的榜单,从多个不同维度来对大模型进行打分排名。目前大部分的企业机构受限于成本、数据隐私合规等因素,不会使用GPT4的服务,也无法自己训一个强力的基座模型,只能依赖于开源模型。然 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照