专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
今天看啥  ›  专栏  ›  自动驾驶之心

如何优雅地测量GPU CUDA Kernel耗时?

自动驾驶之心  · 公众号  ·  · 2024-10-30 07:30
    

文章预览

作者 | Rainlin  编辑 | 自动驾驶之心 原文链接:https://zhuanlan.zhihu.com/p/3278397099 点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 CUDA 』 技术交流群 本文只做学术分享,如有侵权,联系删文 背景 Rainlin:如何优雅地测量GPU CUDA Kernel耗时?(一)中介绍了常用的测量gpu耗时方法,而实际应用中,还会遇到其他的问题,比如: 为什么同样的输入,测量的耗时存在较大差距? 怎样才能精确的测量kernel耗时? 问题 我们看以下常见代码,仅仅做了linear操作: def  test ():     a_size = (20, 8192)     b_size = (5120, 8192)     events = [         [torch.cuda.Event(enable_timing=True)  for  _  in  range(6)]  for  _  in  range(50)     ]      # warm up      for  _  in  range(10):         a = torc ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览