注册登录

看啥推荐读物

专栏名称: 大模型智能

机器学习算法、深度学习算法、自然语言处理等干货知识集中营

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

哲学人 · 孟德斯鸠：人性十恶· 昨天

慧田哲学 · 张五常：比知识更重要的，是思维方式· 2 天前

哲学园 · 21本科学史经典图书 | 张卜天译作· 3 天前

慧田哲学 · 批判性思维永远是少数人的武器· 6 天前

哲学园 · 夏日清凉，只此青绿！新版千里江山图感温杯· 5 天前

今天看啥 › 专栏 › 大模型智能

Pytorch 翻车记录：单卡改多卡踩坑记！

大模型智能 · 公众号 · · 2021-01-17 22:54

作者 | 哟林小平转自 | 夕小瑶的卖萌屋先说明一下背景，目前正在魔改以下这篇论文的代码：https://github.com/QipengGuo/GraphWriter-DGLgithub.com由于每次完成实验需要5个小时（baseline），自己的模型需要更久（2倍），非常不利于调参和发现问题，所以开始尝试使用多卡加速。torch.nn.DataParallel ==> 简称 DPtorch.nn.parallel.DistributedDataParallel ==> 简称DDP一开始采用dp试图加速，结果因为dgl的实现（每个batch的点都会打包进一个batch，从而不可分割），而torch.nn.DataParallel的实现是把一个batch切分成更小，再加上他的加速性能也不如ddp，所以我开始尝试魔改成ddp。另外，作者在实现Sampler的时候是继承了torch.utils.data.Sampler这个类的，目的在于agenda数据集的文本长度严重不均衡，如下：为了让模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

哲学人 · 孟德斯鸠：人性十恶

昨天

慧田哲学 · 张五常：比知识更重要的，是思维方式

2 天前

哲学园 · 21本科学史经典图书 | 张卜天译作

3 天前

慧田哲学 · 批判性思维永远是少数人的武器

6 天前

哲学园 · 夏日清凉，只此青绿！新版千里江山图感温杯

5 天前

郭磊宏观茶座 · 【广发宏观贺骁束】11月经济初窥

1 年前

孜明财经 · 【刘格崧广发行业严选首日认购已达100亿】今天，“顶流”刘格崧拟-20210823145327

2 年前

中国航天科技集团 · 航天科技集团召开党史学习教育领导小组办公室、巡回指导组工作会

2 年前

程序员的那些事 · 趣图：CS 系学生的成长变化

3 年前

创业邦 · 仅售9.9元！《创业邦》1月电子杂志开售！

3 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号