|
|
超 20 万台GPU集群的LLM稳健训练方案:ByteRobust 双平面架构实现97% ETTR,... NeuralTalk · 公众号 · · 18 小时前 · |
|
|
赋能 Linux GPU 生态:NVIDIA 开源 GPU 内核模块的架构、功能与技术实现 NeuralTalk · 公众号 · · 昨天 · |
|
|
平均性能超Triton/TVM 1.35倍!Neptune:整合调度-tile优化流水线的GPU张量... NeuralTalk · 公众号 · · 5 天前 · |
|
|
MLIR-AIR:AMD 基于空间分区与显式同步原语的开源编译器栈,融合通信-计算重叠,实现矩阵乘法... NeuralTalk · 公众号 · · 1 周前 · |
|
|
花 100 美元训练自己的 ChatGPT?Karpathy 新开源项目 nanochat 让大模型... NeuralTalk · 公众号 · · 2 周前 · |
|
|
端侧 NPU 的 LLM 测试时计算扩展:硬件感知块量化与 LUT 优化实现 19.0×GEMM与 ... NeuralTalk · 公众号 · · 2 周前 · |
|
|
破解 LLM 推理非确定性核心:攻克浮点非结合性,构建端到端确定性架构 NeuralTalk · 公众号 · · 3 周前 · |