Grok 3用20万GPU帮AI界做了个实验：Scaling Law没撞墙，但预训练不一定

腾讯科技 · 公众号 · 科技媒体 · 2025-02-19 20:14

主要观点总结

本文讨论了媒体上关于不同预训练模型如DeepSeek、Grok 3等的讨论和比较，包括预训练阶段的Scaling Law是否成立、不同模型的优缺点以及未来模型的发展趋势。文章分析了不同模型的性价比和效率，并提出了关于模型规模扩大和性能提升的一些假设和推测。

关键观点总结

关键观点1: 预训练阶段的Scaling Law仍然成立，但遇到数据瓶颈时，增加模型尺寸可提高效果，但性价比降低。

文章指出预训练阶段的Scaling Law成立，但当数据不足时，增加模型尺寸可以提高效果。按照性价比排序，Test time Scaling Law > RL Scaling Law > 预训练阶段Scaling Law。

关键观点2: Grok 3作为通用基座模型的特点和争议

文章讨论了Grok 3作为通用基座模型的特性，包括其评估方法、性能提升手段、算力消耗等。提出Grok 3耗费大量算力推大模型规模的原因可能是为了在Post-Training阶段通过RL Scaling获得更好的效果。

关键观点3: 对Grok 3和DeepSeek模型的比较与推测

文章比较了Grok 3和DeepSeek等模型的特点和性能，并对一些假设进行了推测，如RL Scaling和Test Time Scaling的天花板问题，以及AGI解决方案的完整性等。

文章预览

中国中文信息学会理事，中科院软件所博士张俊林媒体风向变化太快，让人目不暇接。早上还在夸DeepSeek成本低，性价比高，预训练Scaling Law死了，不需要太多机器和GPU卡，性价比优先，英伟达休矣；中午Grok 3一出来，说是用了10万张英伟达H100卡，效果力压OpenAI o3 mini和DeepSeek R1，就转向说Scaling Law还成立，还需要大量的卡，英伟达股价有救了，还是要大力出奇迹…… 这两个观点明显对立，有一真必有一假，那事实的真相到底是啥呢？我们来推一推。预训练阶段的Scaling Law是否仍然成立预训练阶段的Scaling Law成立吗？当然是成立的，所谓 “Scaling Law 撞墙”，大家普遍遇到的问题是数据不够了，没有大量新数据，导致预训练阶段的Scaling Law走势趋缓，注意是趋缓但不是停顿，预训练阶段的Scaling Law并没到天花板。按照Chinchilla Scaling Law推断，即使没有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · #字节内部致歉#【再发通知！#字节内部回应禁用第三方开发工具#】-20250529112549

12 小时前

芯东西 · 深圳碳化硅芯片龙头冲刺港交所！中国唯一，全球第七

昨天

芯东西 · 深圳碳化硅芯片龙头冲刺港交所！中国唯一，全球第七

昨天

陕西生态环境 · 视频丨中央第四生态环境保护督察组督察陕西省动员会在西安召开

2 天前

陕西生态环境 · 视频丨中央第四生态环境保护督察组督察陕西省动员会在西安召开

2 天前

极客公园 · 王兴：不惜代价赢得外卖战；前苹果设计师 Ive 财富暴涨 7 亿美元；Arm 确认「赋能」小米玄戒 O1 | 极客早知道

2 天前

新浪科技 · 【#雷军恳请大家转发辟谣##小米辟谣向Arm定制芯片#】小米公司-20250526222523

3 天前

FDA食安云 · 我国目前认证的类型主要分为：产品认证和管理体系认证。那么它们有什么区别？

7 月前

东莞本地宝 · 问答 | 东莞怎么查询居住证的年限？

2 月前

大江网 · 多年来持续侮辱诋毁小米，自媒体博主公开道歉！“光有文字不够真诚，专门手写一遍”，此前被判连续7天道歉并赔偿

2 月前

艾锋降级 · iOS 18.3 RC 仍开启，正式版还剩 13 天

1 月前