注册登录

看啥推荐读物

专栏名称: AI有道

一个有情怀、有良心的公众号。AI领域机器学习、深度学习等知识集中营，干货满满。期待与你共同进步！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

简单心理 · 社交焦虑：渴望联结，却没法社交的人们· 3 天前

简单心理 · 被忽视的情绪信号，正在让我们内心失衡 ...· 3 天前

壹心理 · 想搞靠谱副业的请进！推荐你这个居家可做的“新 ...· 3 天前

壹心理 · 一直保持高能量的人，都很会做这一件事（建议收藏）· 3 天前

武志红 · 中年女走过的散财路，每一步都算数· 2 天前

今天看啥 › 专栏 › AI有道

CUDA WarpReduce 学习笔记

AI有道 · 公众号 · · 2022-04-09 12:10

前言之前看我司的如何实现一个高效的Softmax CUDA kernel？多少还是有些细节没有理解，恰好最近要做一个类似的 Reduce+Scale Kernel，原理机制还是比较相似的，所以翻出来重新理解一下。背景我们定义这么一个ReduceScale操作：假设Tensor是(N, C)，首先在C这个维度计算出 absMax 值，我们记作scale，然后将每一行除以各自行的scale，并最终输出。一段朴素的numpy代码是这样：import numpy as npN = 1000C = 128x = np.random.randn(N, C)scale = np.expand_dims(np.max(np.abs(x), axis=1), 1)out = x / scaleprint(out.shape)BaseLine这里我们BaseLine是直接调用cub库中的 BlockReduce，一个 threadBlock 处理一行数据，计算出AbsMaxVal，然后再缩放，代码如下：#include "cuda.h"#include "cub/cub.cuh"constexpr int kReduceBlockSize = 128;templatetypename T>__device__ T abs_func(const T& a) { return abs(a);}templatetypename T>_ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

简单心理 · 社交焦虑：渴望联结，却没法社交的人们

3 天前

简单心理 · 被忽视的情绪信号，正在让我们内心失衡｜低价心理服务资源推荐

3 天前

壹心理 · 想搞靠谱副业的请进！推荐你这个居家可做的“新职业”——

3 天前

壹心理 · 一直保持高能量的人，都很会做这一件事（建议收藏）

3 天前

武志红 · 中年女走过的散财路，每一步都算数

2 天前

太星小升初 · 限时开放！6年级小升初专属群-实时在线答疑+升学资料、实物抽奖，速进

1 月前

湖南日报 · 长峰医院被停牌

1 年前

电子工程专辑 · EDA进入AI设计新纪元：新思科技、Cadence、谷歌和英伟达开始借助AI进行复杂芯片设计

2 年前

澎湃新闻 · 中国妇女报评刘强东事件，“法律的后面还有道德”

5 年前

白话区块链 · 大白有约｜链接Dapp时代，区块链线下技术沙龙北京站

6 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号