|
商汤团队详解模型压缩技术:内含量化、稀疏及实战经验分享 oldpan博客 · 公众号 · · 6 月前 · 访问文章快照 |
|
The State of vLLM 2024 oldpan博客 · 公众号 · · 6 月前 · 访问文章快照 |
|
开源、免费的企业私有大模型即服务平台 oldpan博客 · 公众号 · · 6 月前 · 访问文章快照 |
|
一起理解下LLM的推理流程 oldpan博客 · 公众号 · 科技自媒体 · 6 月前 · 访问文章快照 |
|
vLLM vs TensorRT-LLM 性能对比测试二(Towards Optimal Batching),基于最新版本 oldpan博客 · 公众号 · 科技自媒体 · 6 月前 · 访问文章快照 |
|
算法岗哀鸿遍野,部署工程师却成为了香饽饽 oldpan博客 · 公众号 · · 6 月前 · 访问文章快照 |
|
深入解读tensorRT-LLM的关键技术 (未完待续) oldpan博客 · 公众号 · · 6 月前 · 访问文章快照 |
|
大模型低显存推理优化-Offload技术 oldpan博客 · 公众号 · · 6 月前 · 访问文章快照 |
|
vLLM vs TensorRT-LLM 性能对比测试,基于0910较新版本 oldpan博客 · 公众号 · · 6 月前 · 访问文章快照 |
|
一文详解模型压缩典型算法:量化、稀疏及项目实践 oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |
|
Pytorch量化新方法TorchAO简单介绍 oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |
|
Accelerating Generative AI with PyTorch II: GPT, Fast[翻译] oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |
|
一念 LLM 大语言模型推理加速 oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |
|
深夜空降!OpenAI草莓正式发布,命名o1, GPT-4o被碾压! oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |
|
基于 chunked prefill 理解 prefill 和 decode 的计算特性 oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |
|
Transformer推理结构简析(Decoder + MHA) oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |
|
如何复现 SGLang v0.3.0 和 vLLM v0.6.0 的性能测试 oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |
|
深剖深度学习推理加速方法(文心大模型ERNIE) oldpan博客 · 公众号 · · 7 月前 · 访问文章快照 |