今天看啥  ›  专栏  ›  腾讯科技

Grok 3用20万GPU帮AI界做了个实验:Scaling Law没撞墙,但预训练不一定

腾讯科技  · 公众号  · 科技媒体  · 2025-02-19 20:14
    

主要观点总结

本文讨论了媒体上关于不同预训练模型如DeepSeek、Grok 3等的讨论和比较,包括预训练阶段的Scaling Law是否成立、不同模型的优缺点以及未来模型的发展趋势。文章分析了不同模型的性价比和效率,并提出了关于模型规模扩大和性能提升的一些假设和推测。

关键观点总结

关键观点1: 预训练阶段的Scaling Law仍然成立,但遇到数据瓶颈时,增加模型尺寸可提高效果,但性价比降低。

文章指出预训练阶段的Scaling Law成立,但当数据不足时,增加模型尺寸可以提高效果。按照性价比排序,Test time Scaling Law > RL Scaling Law > 预训练阶段Scaling Law。

关键观点2: Grok 3作为通用基座模型的特点和争议

文章讨论了Grok 3作为通用基座模型的特性,包括其评估方法、性能提升手段、算力消耗等。提出Grok 3耗费大量算力推大模型规模的原因可能是为了在Post-Training阶段通过RL Scaling获得更好的效果。

关键观点3: 对Grok 3和DeepSeek模型的比较与推测

文章比较了Grok 3和DeepSeek等模型的特点和性能,并对一些假设进行了推测,如RL Scaling和Test Time Scaling的天花板问题,以及AGI解决方案的完整性等。


文章预览

中国中文信息学会理事,中科院软件所博士 张俊林 媒体风向变化太快,让人目不暇接。早上还在夸DeepSeek成本低,性价比高,预训练Scaling Law死了,不需要太多机器和GPU卡,性价比优先,英伟达休矣;中午Grok 3一出来,说是用了10万张英伟达H100卡,效果力压OpenAI o3 mini和DeepSeek R1,就转向说Scaling Law还成立,还需要大量的卡,英伟达股价有救了,还是要大力出奇迹…… 这两个观点明显对立,有一真必有一假,那事实的真相到底是啥呢?我们来推一推。 预训练阶段的Scaling Law是否仍然成立 预训练阶段的Scaling Law成立吗?当然是成立的,所谓 “Scaling Law 撞墙”,大家普遍遇到的问题是数据不够了,没有大量新数据,导致预训练阶段的Scaling Law走势趋缓,注意是趋缓但不是停顿,预训练阶段的Scaling Law并没到天花板。 按照Chinchilla Scaling Law推断,即使没有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览