主要观点总结
阿里巴巴的研究团队与浙江大学合作提出了一种新的 Scaling Law:并行计算缩放定律(Parallel Scaling Law,简称 ParScale),它能提升大模型的能力并降低训练成本。ParScale 通过在训练和推理阶段引入并行计算,将现成的预训练模型转换为并行缩放模型。该成果论文的第一作者介绍了其核心想法和实现细节。ParScale 的实现包括输入多样化变换、并行处理和动态聚合输出。ParScale 的基本思想是让模型从多个角度回答问题,再通过动态加权融合得出结果。该策略在多个下游基准测试中验证了其有效性,特别是在数学、编程等需要强推理能力的任务中表现显著。ParScale 还适用于资源匮乏的边缘设备,如智能手机、智能汽车和机器人等。目前,相关研究仍在进行中。
关键观点总结
关键观点1: ParScale 是阿里巴巴与浙江大学合作提出的一种新的机器学习模型缩放方法。
该方法在不增加模型参数的情况下提升大模型的能力,且推理效率更高。
关键观点2: ParScale 通过在训练和推理阶段引入并行计算来实现性能提升。
它采用输入多样化变换、并行处理和动态聚合输出的策略,让模型从多个角度回答问题,再通过动态加权融合得出结果。
关键观点3: ParScale 在数学、编程等需要强推理能力的任务中表现显著。
随着并行流值数量 P 的增加,模型在大多数基准测试中的性能也得到提升。
关键观点4: ParScale 适用于资源匮乏的边缘设备,如智能手机、智能汽车和机器人等。
相比参数扩展,ParScale 带来的内存增加和延迟增加更小。
文章预览
整理 | 华卫 近日,阿里巴巴的研究团队与浙江大学合作提出了一种新的 Scaling Law:并行计算缩放定律(Parallel Scaling Law,简称 ParScale),即在训练和推理期间增加模型的并行计算,可以在不增加模型参数的情况下提升大模型的能力,且推理效率更高。 与实现相同性能提升的参数缩放相比,ParScale 带来的内存增加量是前者的4.5%(1/22) ,延迟增加量是前者的16.7% (1/6)。它还可以通过在少量 token 上进行后训练,将现成的预训练模型转换为并行缩放模型,进一步降低训练成本。 “我们发现的新缩放定律有可能促进更强大的模型在低资源场景中的部署,并为计算在机器学习中的作用提供了另一种视角。”研究人员表示,ParScale 通过重用现有参数来扩展并行计算,可以应用于任何模型结构、优化过程、数据或任务。 目前,这一研究进展已在 GitHub 上开源
………………………………