看啥推荐读物
专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

如何科学交换信息?这篇ICML论文教你如何降低95%的通讯成本

机器之心  · 公众号  · AI  · 2019-06-19 01:35
机器之心原创作者:思源随着深度模型越来越强大,它的通讯成本和需要的算力也急剧增长。因此,设计一个高效的分布式训练框架非常重要。那么什么是分布式计算,它又是怎样利用多个工作站加速训练呢?在本文中,我们将概述分布式计算的核心概念,并讨论一篇优秀的 ICML 2019 论文,该论文提出一种压缩梯度算法,可以将通讯成本降低 95%。分布式计算有很多研究问题:如何高效地为工作站分配计算任务;如何有效降低工作站间的通讯成本;如何确保单机和多机训练的收敛具有一致性等等。在 2016 年 TensorFlow 第一次支持分布式训练时,相比单 GPU 训练,其 100 块 GPU 只能提供 56 倍的加速。而随着各种分布式策略及技术的提出,这一加速倍数已经大大提升。在 ICML 2019 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照