|
谈一谈Distributed Optimizer(ZERO)坑爹的地方 GiantPandaCV · 公众号 · 3D · 23 小时前 · 访问文章快照 |
|
多模态融合56个创新点汇总,找idea必看! GiantPandaCV · 公众号 · 3D · 2 天前 · 访问文章快照 |
|
[原创]新进展!Larimar-让大型语言模型像人一样记忆与遗忘 GiantPandaCV · 公众号 · 3D · 2 天前 · 访问文章快照 |
|
[原创]AI Infra论文阅读之《在LLM训练中减少激活值内存》 GiantPandaCV · 公众号 · 3D · 4 天前 · 访问文章快照 |
|
聊聊 MOE + LoRA 微调新方式 GiantPandaCV · 公众号 · 3D · 4 天前 · 访问文章快照 |
|
PyTorch高性能编程 GiantPandaCV · 公众号 · 3D · 5 天前 · 访问文章快照 |
|
显存优化之加速通信算子内存释放 GiantPandaCV · 公众号 · 3D · 1 周前 · 访问文章快照 |
|
[原创]ICLR2024 oral:小尺度Transformer如何Scale Up GiantPandaCV · 公众号 · 3D · 1 周前 · 访问文章快照 |
|
拆解一下字节的烧钱工作,MegaScale! GiantPandaCV · 公众号 · 3D · 1 周前 · 访问文章快照 |
|
100+目标检测论文代码,还有15节论文精读课! GiantPandaCV · 公众号 · 3D · 1 周前 · 访问文章快照 |
|
Mixtral 8x7B(Mistral MoE) 模型解析 GiantPandaCV · 公众号 · 3D · 1 周前 · 访问文章快照 |
|
[原创]ICLR 2024 最新研究 DYST 技术让视频表征更精准、更智能 GiantPandaCV · 公众号 · 3D · 1 周前 · 访问文章快照 |
|
书生·浦语大模型实战营第二期正式启动,内容全面升级! GiantPandaCV · 公众号 · 3D · 1 周前 · 访问文章快照 |
|
图解Mixtral 8 * 7b推理优化原理与源码实现 GiantPandaCV · 公众号 · 3D · 2 周前 · 访问文章快照 |
|
Transformer系列论文+代码解析【附226篇顶会论文】 GiantPandaCV · 公众号 · 3D · 2 周前 · 访问文章快照 |
|
[原创]Sora生成具有惊人几何一致性的视频,评估指标来了!(附项目链接) GiantPandaCV · 公众号 · 3D · 2 周前 · 访问文章快照 |
|
聊聊 PyTorch 中新的Distributed API (二) GiantPandaCV · 公众号 · 3D · 2 周前 · 访问文章快照 |
|
聊聊 PyTorch2.0 中新的Distributed API GiantPandaCV · 公众号 · 3D · 2 周前 · 访问文章快照 |
|
[原创]OpenAI:Superalignment的一种途径——Weak-to-Strong Generalization GiantPandaCV · 公众号 · 3D · 2 周前 · 访问文章快照 |
|
聊聊序列并行Sequence parallelism GiantPandaCV · 公众号 · 3D · 3 周前 · 访问文章快照 |