专栏名称: 视学算法
公众号专注于人工智能 | 机器学习 | 深度学习 | 计算机视觉 | 自然语言处理等前沿论文和基础程序设计等算法。地球不爆炸,算法不放假。
今天看啥  ›  专栏  ›  视学算法

一番实验后,有关Batch Size的玄学被打破了

视学算法  · 公众号  ·  · 2022-07-11 13:08
作者:Sebastian Raschka视学算法编译编辑:泽南有关 batch size 的设置范围,其实不必那么拘谨。我们知道,batch size 决定了深度学习训练过程中,完成每个 epoch 所需的时间和每次迭代(iteration)之间梯度的平滑程度。batch size 越大,训练速度则越快,内存占用更大,但收敛变慢。又有一些理论说,GPU 对 2 的幂次的 batch 可以发挥更好性能,因此设置成 16、32、64、128 … 时,往往要比设置为其他倍数时表现更优。后者是否是一种玄学?似乎很少有人验证过。最近,威斯康星大学麦迪逊分校助理教授,著名机器学习博主 Sebastian Raschka 对此进行了一番认真的讨论。Sebastian Raschka关于神经网络训练,我认为我们都犯了这样的错误:我们选择批量大小为 2 的幂,即 64、128、256、512、1024 等等。(这里,batch size 是指当我们通过基于随机梯度下降的优化算 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照