专栏名称: 真格基金
真格基金是由新东方教育科技联合创始人徐小平、王强和红杉资本中国在2011年联合成立的天使基金。世纪佳缘、兰亭集势、聚美优品、一起作业、美菜、小红书、蜜芽、找钢网、英雄互娱、大姨吗、51Talk等多家公司已经成为真格基金投资的明星企业。
今天看啥  ›  专栏  ›  真格基金

我们做了一个大模型测试集「Z-Bench」,300个问题全方位考察大语言模型能力

真格基金  · 公众号  · 科技投资  · 2023-03-17 21:21
自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。那么,我们在用哪些 Prompts 进行测试呢?OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力,在 NLP 领域,也有 SuperGLUE、MMLU、Google BIG-bench 等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。但是,通过实践,我们发现当前的 NLP 任务 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照