Llama 4 刷榜作弊引热议，20 万显卡集群就做出了个这？

大数据文摘 · 公众号 · 大数据 · 2025-04-12 18:01

主要观点总结

Meta公司发布了Llama 4系列模型，包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。网友在实际测试中质疑其性能表现，发现存在刷榜现象。网友们发现Llama 4在几何程序测试中的表现不佳，并指出其在代码评测榜单中的成绩也较低。同时，有爆料称Llama 4的训练存在严重问题，内部模型表现不佳。此外，有观点认为Meta内部研究人员压力过大，导致模型创新能力不足。相比之下，其他团队如DeepSeek在探索新架构方面取得了进展。Llama 4系列模型缺乏技术创新，且无法适用于家用电脑，缺乏市场竞争力。

关键观点总结

关键观点1: Meta发布Llama 4系列模型，引发关注。

包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。官方宣传其经过大量未标注数据训练，视觉理解能力强大。

关键观点2: 网友质疑Llama 4性能表现。

实际测试中，发现其在某些任务中的表现不佳，怀疑存在刷榜现象。

关键观点3: 存在刷榜现象。

有网友发现Llama 4在测试中的成绩被人为提高，内部模型表现不佳的爆料也浮出水面。

关键观点4: Meta内部研究人员压力过大导致模型创新能力不足。

有观点认为Meta内部研究人员压力过大，过于追求成果，导致缺乏真正的创新。

关键观点5: 其他团队在探索新架构方面取得进展。

例如DeepSeek团队提出了强化学习里的神奇算法 GRPO等新的技术和架构。

关键观点6: Llama 4系列模型缺乏技术创新且难以适用。

专业人士认为Llama 4缺乏技术创新，并且无法适用于家用电脑，缺乏市场竞争力。

文章预览

大数据文摘受权转载自AI科技评论作者丨郑佳美编辑丨马晓宁昨天一早，Meta 放出了自家用了 20 万显卡集群训练出的 Llama 4 系列模型，其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。消息一出，直接引爆了大模型圈。 Meta 还特意强调，这些模型都经过了大量未标注的文本、图像和视频数据的训练，视觉理解能力已经到了 Next level，有种在大模型领域一骑绝尘的既视感。 Meta GenAI 负责人 Ahmad Al-Dahle 也表示：“我们的开放系统将产出最好的小型、中型和即将出现的前沿大模型。”并附上了一张 Llama 4 的性能对比测试图。紧接着，在大模型竞技场中 Llama 4 Maverick 的排名直接跃升到第二名，成为了第 4 个突破 1400 分的大模型。在开放模型排行榜上更是超越了 DeepSeek ，直接上桌坐“主座”。 “首次采用 MoE 架构”、“千万 token 上下文”...一时间 Llam ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博