专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaLLM

【博客翻译】让前缀和变得更快

GiantPandaLLM  · 公众号  · 3D  · 2025-05-05 23:24
    

文章预览

本文由 @Simon V(https://github.com/simveit) 授权转载和翻译并发表到本公众号。原始地址为:https://veitner.bearblog.dev/making-prefix-sum-really-fast/ 让前缀和变得更快 2025年4月13日 在这篇博文中,我们将展示如何优化分块前缀和操作。分块前缀和的工作原理如下: 给定一个向量  v ,我们将该向量分成若干块。在每个块内部执行前缀和运算。一个简单的例子,假设每个块包含4个元素,输入向量为  v = [0, 1, 2, 3, 4, 5, 6, 7] ,那么输出向量将是  o = [0, 1, 3, 6, 4, 9, 15, 22] 这是GPU中前缀和操作的一个基本构建块。 算法 请参考幻灯片21(https://safari.ethz.ch/projects_and_seminars/fall2022/lib/exe/fetch.php?media=p_s-hetsys-fs2022-meeting10-aftermeeting.pdf)来理解该算法。这张图片清晰地描述了我们要执行的算法。该算法包含多个阶段。在每个阶段,我们将两个相加元素之间的步长增加两倍。在最后一个阶段结束 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览