看啥推荐读物
专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

Pytorch 翻车记录:单卡改多卡踩坑记!

大模型智能  · 公众号  ·  · 2021-01-17 22:54
作者 | 哟林小平转自 | 夕小瑶的卖萌屋先说明一下背景,目前正在魔改以下这篇论文的代码:https://github.com/QipengGuo/GraphWriter-DGLgithub.com由于每次完成实验需要5个小时(baseline),自己的模型需要更久(2倍),非常不利于调参和发现问题,所以开始尝试使用多卡加速。torch.nn.DataParallel ==> 简称 DPtorch.nn.parallel.DistributedDataParallel ==> 简称DDP一开始采用dp试图加速,结果因为dgl的实现(每个batch的点都会打包进一个batch,从而不可分割),而torch.nn.DataParallel的实现是把一个batch切分成更小,再加上他的加速性能也不如ddp,所以我开始尝试魔改成ddp。另外,作者在实现Sampler的时候是继承了torch.utils.data.Sampler这个类的,目的在于agenda数据集的文本长度严重不均衡,如下:为了让模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照