来自 JoeNomad链接 https://zhuanlan.zhihu.com/p/678915618开篇 大家好,我是joe,上一篇文章中着重从high level的层面分析了cutlass这个工作,以及整个优化手段的overview,接下来会step by step地剖析cutlass的各个组件以及优化手段,本文作为源码分析的第一篇,会先从整个软件架构&&调用链路来说明每个组件做了什么,并且分享一些debug性能问题的方法本篇文章focus的内容:分析cutlass的主要组件,软件架构,旨在能够让大家快速warm up,减少认知成本提供debug的方法参考CUTLASS的软件架构Overview 本文会以cutlass的example 08为例(sm75架构上的矩阵乘法),自顶向下地来梳理cutlass的软件架构# example dir cutlass/examples/08_turing_tensorop_gemm/turing_tensorop_gemm.cu从计算逻辑上可以分为两个部分:MMA: 矩阵乘法的乘累加部分,覆盖范围是load(global)->store(shared)->mma(矩阵乘法的结果存在寄存器
………………………………