注册登录

看啥推荐读物

专栏名称: 视学算法

公众号专注于人工智能 | 机器学习 | 深度学习 | 计算机视觉 | 自然语言处理等前沿论文和基础程序设计等算法。地球不爆炸，算法不放假。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

湖南日报 · 沈晓明：推动党纪学习教育持续走深走实 ...· 23 小时前

新闻株洲 · 响田大桥恢复通行！株洲交警最新提醒！· 2 天前

潇湘晨报 · 四川一稻虾基地被博主传“随便捡”损失惨重，“ ...· 2 天前

手游那点事 · 《王者荣耀》国际版真来了，定档6月20日· 4 天前

湖南日报 · 突发！6人被困3人不幸身亡· 4 天前

今天看啥 › 专栏 › 视学算法

Pytorch nn.Transformer的mask理解

视学算法 · 公众号 · · 2021-03-25 11:06

点击上方“视学算法”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨林小平@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/353365423编辑丨极市平台pytorch也自己实现了transformer的模型，不同于huggingface或者其他地方，pytorch的mask参数要更难理解一些（即便是有文档的情况下），这里做一些补充和说明。（顺带提一句，这里的transformer是需要自己实现position embedding的，别乐呵乐呵的就直接去跑数据了）>>> transformer_model = nn.Transformer(nhead=16, num_encoder_layers=12)>>> src = torch.rand((10, 32, 512))>>> tgt = torch.rand((20, 32, 512))>>> out = transformer_model(src, tgt) # 没有实现position embedding ，也需要自己实现mask机制。否则不是你想象的transformer首先看一下官网的参数src – the sequence to the encoder ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

湖南日报 · 沈晓明：推动党纪学习教育持续走深走实做到知纪于心履纪于行守纪于常

23 小时前

新闻株洲 · 响田大桥恢复通行！株洲交警最新提醒！

2 天前

潇湘晨报 · 四川一稻虾基地被博主传“随便捡”损失惨重，“完全劝不退！”律师详析三大焦点

2 天前

手游那点事 · 《王者荣耀》国际版真来了，定档6月20日

4 天前

湖南日报 · 突发！6人被困3人不幸身亡

4 天前

海蓝博士 · 从145斤到95斤, 效果堪比整容 ! 只用对了一个方法

2 年前

WitsView睿智显示调研 · 京东方2022年MiniLED专业产品正在规划中

2 年前

雪球 · 【汽车板块异动长城汽车涨6.22%】汽车板块午后异动，截至发-20210107133131

3 年前

餐企老板内参 · 不断创新、寻找下一增长曲线，这些餐企为何能逆势增长？

3 年前

正商听潮 · 抖音创始人：我面试了两千个年轻人，发现混的好的都有这5种特质

4 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号