专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

[深入分析CUTLASS系列] 0x01 cutlass 源码分析(零) --- 软件架构(附ncu性能分析方法)

oldpan博客  · 公众号  ·  · 2024-04-14 23:04
来自 JoeNomad链接 https://zhuanlan.zhihu.com/p/678915618开篇   大家好,我是joe,上一篇文章中着重从high level的层面分析了cutlass这个工作,以及整个优化手段的overview,接下来会step by step地剖析cutlass的各个组件以及优化手段,本文作为源码分析的第一篇,会先从整个软件架构&&调用链路来说明每个组件做了什么,并且分享一些debug性能问题的方法本篇文章focus的内容:分析cutlass的主要组件,软件架构,旨在能够让大家快速warm up,减少认知成本提供debug的方法参考CUTLASS的软件架构Overview   本文会以cutlass的example 08为例(sm75架构上的矩阵乘法),自顶向下地来梳理cutlass的软件架构# example dir cutlass/examples/08_turing_tensorop_gemm/turing_tensorop_gemm.cu从计算逻辑上可以分为两个部分:MMA: 矩阵乘法的乘累加部分,覆盖范围是load(global)->store(shared)->mma(矩阵乘法的结果存在寄存器 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照