文章预览
↑ 点击 蓝字 关注极市平台 作者丨 回旋托马斯x@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/675517271 编辑丨极市平台 极市导读 从前向传递、后向传递和优化器参数更新的浮点数计算次数入手,详解向传递的耗时为啥几乎是前向传递的两倍。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 1. 前言 训练神经网络的一次迭代分为三步:(1)前向传递计算损失函数;(2)后向传递计算梯度;(3)优化器更新模型参数。在实验中,我们观察到一个现象: 后向传递的耗时几乎是前向传递的两倍,相比之下,优化器更新的耗时几乎可以忽略 。要解释这个现象,我们要从前向传递、后向传递和优化器参数更新的浮点数计算次数入手。 上图表示一次训练迭代中各个环节(前向传递、后向传递、通信环节、优化器更新)的耗时占比,来自于《PyTorch Dis
………………………………