文章预览
大数据文摘受权转载自夕小瑶科技说 作者 | 小鹿 近期,全球科技界的目光都集中在OpenAI即将推出的下一代模型上,究竟会是o2还是GPT-5? o2代表了全新的训练范式,而GPT-5则代表了继续Scaling Law的路线。 实际上,这个问题已经在11月份的时候,有Reddit网友向Altman提出过: Altman最新谈到OpenAI的动态时,与OpenAI寻求新路径的努力是相呼应的--下一代技术不会是GPT的简单迭代。 为什么不再是GPT-5了? 首先,GPT系列模型,即生成式预训练Transformer模型,其核心特点是依靠数据驱动的Scaling Law来推动性能的提升。 论文《Scaling Laws for Neural Language Models》提出语言建模性能随着模型大小、数据集大小和用于训练的计算量的增加而平稳提升。为了获得最佳性能,这三个因素必须同时扩大。当不受其他两个因素的限制时,经验性能与每个单独因素之间具有幂律关系。
………………………………