专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

【CUDA 博客】使用PTX指令更高效地加载和存储矩阵

GiantPandaLLM · 公众号 · 3D · 2025-05-26 12:00

文章预览

本文由 @Simon V(https://github.com/simveit) 授权转载和翻译并发表到本公众号。原始地址为：https://veitner.bearblog.dev/load-and-store-matrices-efficently-with-ptx-instructions/ 本文实验cuda代码见：https://github.com/simveit/load_and_store 使用PTX指令更高效地加载和存储矩阵 2025年5月14日 ldmatrix 从PTX文档(https://docs.nvidia.com/cuda/parallel-thread-execution/#warp-level-matrix-instructions-ldmatrix)中我们可以看到, ldmatrix 可以用于从共享内存中集体加载一个或多个矩阵,以供 mma 指令使用。指令格式如下 ldmatrix.sync.aligned.shape.num{.trans}{.ss}. type r, [p]; ldmatrix.sync.aligned.m8n16.num{.ss}.dst_fmt.src_fmt r, [p]; ldmatrix.sync.aligned.m16n16.num.trans{.ss}.dst_fmt.src_fmt r, [p]; .shape = {.m8n8, .m16n16}; .num = {.x1, .x2, .x4}; .ss = {.shared{::cta}}; . type = {.b16, .b8}; .dst_fmt = { .b8x16 }; .src_fmt = { .b6x16_p32, .b4x16_p64 }; 该指令将从 .shar ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

zhtttyzhttty · 不急不急，每日龟赏之所以是每日，就是因为要有期待感啊。明日请早，-20240804201233

10 月前

量子位 · 查收你的DeepSeek专属导航站，专门解决服务器繁忙~并附赠各行业接入ds的时间线

3 月前

浦东企业政策在线 · 企业政策大讲堂 | 总第304期高新技术企业认定政策解读会

2 月前

深圳图书馆 · 学不进去？那就“玩”进去！ │ “圳在创业”活动报名

1 月前

热点地界 · 达州一企业公开招聘，薪资可达8000元

1 月前