定期分享机器学习领域原创文章,公众号内容涵盖了机器学习算法和python数据分析等文章,目前监督学习方法的文章应有尽有,非监督学习的原创文章一直在更新,欢迎机器学习爱好者和从业者的加入,互相学习,共同成长。
今天看啥  ›  专栏  ›  机器学习算法那些事

CUDA编程:矩阵乘运算从CPU到GPU

机器学习算法那些事  · 公众号  ·  · 2025-04-28 11:40
    

文章预览

来自|知乎    作者丨kaiyuan 链接丨https://zhuanlan.zhihu.com/p/573271688 编辑丨极市平台   本文主要介绍用CUDA实现矩阵乘法运算(C = A x B)的几个基本方法,帮助大家理解矩阵在GPU上面的运算与CPU上的有何异同,通过实践上手CUDA的优化计算,相比基础方法,能提速10倍以上。 本文内容涉及到CUDA矩阵1D运算、2D运算、共享内存、CUBLAS的使用。 文中的全部code: https://github.com/CalvinXKY/BasicCUDA/tree/master/matrix_multiply V100上的测试对比: 运行内容“./matMul wA=1024 hA=256 wB=128 hB=1024” 1 CPU矩阵乘运算 矩阵 C = A x B的数学运算,是线性代数里面最基本的内容, 计算的基本公式如下: 矩阵   中每个元素   为   的第 1 行与   的   列进行元素对应相乘再求和。 若:A 宽wA 高:hA; B 宽wB 高:hB; C 宽wC 高:hC 有: 通过计算机运算我们能够很容易的得到运算部分的代码,如下: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览