|
OpenAI o1 技术初探1:整体框架,利用Test-Time Scaling Law提升逻辑推理能力 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
【翻译】使用PyTorch FSDP最大化训练吞吐量 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
图文详解 Continuous Batch:不写 CUDA Kernel 也能成倍优化推理效率 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
CUDA-MODE 课程笔记 第14课,Triton 实践指南 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
揭秘 PagedAttention(上):如何管理 Paged KV Cache GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
图解KV Cache:加速大模型推理的幕后功臣 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
Flex Attention API 应用 Notebook 代码速览 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
将GLM-4-Plus大模型应用到Cursor中 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
大语言模型推理,用动画一看就懂! GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
【翻译】【PyTorch 奇技淫巧】FlexAttetion 基于Triton打造灵活度拉满的Attention GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
【翻译】torch.compile 的详细示例解析教程 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
CUDA-MODE 课程笔记 第13课:Ring Attention GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
大模型直接预测下一个句子,更快、更准、更长! GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
【PyTorch 奇技淫巧】介绍 depyf:轻松掌握 torch.compile GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
一文读懂 ONNX、TensorRT、OpenVINO部署框架 GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
【翻译】CUTLASS 教程:掌握 NVIDIA® 张量内存加速器 (TMA) GiantPandaLLM · 公众号 · 3D · 7 月前 · 访问文章快照 |
|
一文读懂KVCache GiantPandaLLM · 公众号 · 3D · 8 月前 · 访问文章快照 |
|
【翻译】深入探讨 Hopper TMA 单元在 FP8 GEMM 运算中的应用(文末送3本大模型书) GiantPandaLLM · 公众号 · 3D · 8 月前 · 访问文章快照 |
|
人人都能看懂的DPO数学原理 GiantPandaLLM · 公众号 · 3D · 8 月前 · 访问文章快照 |