文章预览
【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/698787661 写在前面 在训练模型尤其是大模型的时候,如何 加快训练速度 以及 优化显存利用率 是一个很关键的问题。本文主要参考HF上的一篇文章 :https://huggingface.co/docs/transformers/perf_train_gpu_one ,以及笔者在实际训练中的一些经验,给出一些比较实用的方法。 先看一个总览的表: 方法 加快训练速度 优化显存利用率 Batch size choice Yes Yes Gradient accumulation No Yes Gradient checkpointing No Yes Mixed precision training Yes No Optimizer choice Yes Yes Data preloading Yes No DeepSpeed Zero No Yes torch.compile Yes No 其实加快训练速度本质就是 提高数据吞吐量 ,每秒能够处理多少samples,在不爆显存的情况下,尽可能的提高Batch size,但在如今模型参数巨大的情况下,可能一张卡都不够放模型,例如llama-2-7B以FP16加载,都需要接近13G的
………………………………