|
|
INT21 与 PTX Kernel 工厂:告别底层调优难题,智能系统让英伟达 GPU 跑得更快 NeuralTalk · 公众号 · · 21 小时前 · |
|
|
GPU开销直降64%、智能体交互降 62%!易于 Agent 开发的精简 MoE 训练系统 Pith... NeuralTalk · 公众号 · · 2 天前 · |
|
|
性能超越 Claude Opus 4.7!开源 GPU Kernel 生成模型 MusaCoder,... NeuralTalk · 公众号 · · 2 天前 · |
|
|
突破 GPU 静态并行局限,上交提出 GF-DiT 实现自适应 DiT 服务,吞吐量最高提升 6 倍... NeuralTalk · 公众号 · · 4 天前 · |
|
|
异构智能体之间的“读心术”:稠密 KV 缓存高效通信实现 2-3 倍算力优化 NeuralTalk · 公众号 · · 4 天前 · |
|
|
打破 2 比特 KV 精度魔咒:OSCAR 实现近无损 2 比特压缩,大批次吞吐量达 BF16 的 ... NeuralTalk · 公众号 · · 5 天前 · |
|
|
端侧推理近 3 倍提速!清华北航提出基于闪存-DRAM、CPU-NPU 异构的投机解码系统 LEVE... NeuralTalk · 公众号 · · 1 周前 · |
|
|
把 H20 榨干到底:腾讯混元 AI Infra 团队的 HPC-Ops 如何用数百行 CuTe 改... NeuralTalk · 公众号 · · 1 周前 · |
|
|
超越 EAGLE3 与 DFlash!Domino 轻量级因果修正实现 SGLang 下最高 5.8... NeuralTalk · 公众号 · · 2 周前 · |