今天看啥  ›  专栏  ›  机器学习研究组订阅

UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一

机器学习研究组订阅  · 公众号  · AI  · 2024-03-24 18:05
Claude 3和GPT-4到底谁厉害?自从Claude 3发布以来,Anthropic官方对外宣称的说法就是「全面超越GPT-4」,在技术报告中给出的各个测试集的数据来看,也都几乎稳压GPT-4-Turbo一头。但之前的新模型出来都要在跑分上「吊打」GPT-4,但实际体验却很少有真的能和GPT-4掰手腕的。各行各业用户试用过Claude 3,发现体验似乎也比GPT-4要好。在通过人类用户打分进行排名的lmsys LLM Arena中,Claude 3在不断积累了真实用户反馈分数之后,排名不断爬升。众所周知,这个排行榜因为是基于人类对于大模型回答的真实感受打分来排名的,对于越早初现的LLM,就能积累越多的评价,分数也越容易刷高。所以之前出现了Claude 1.0排名高于Claude 2.0的情况,就是因为如果提升不明显,先发布的模型得分会更有优势。而距离Claude 3发布一个多星期的时间,它就已经和发布了几个月的GPT-4 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照