专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
目录
今天看啥  ›  专栏  ›  AI for Research

字节发布新研究:扩散视频模型DiT的规模缩放规律!大模型是否具备逻辑推理能力? SAT 解决问题的理...

AI for Research  · 公众号  ·  · 2024-10-11 17:44
    

文章预览

前言: 如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”! 1. 扩散Transformers(DiT)的规模缩放规律   标题: Scaling Laws For Diffusion Transformers   机构: 字节跳动、香港大学、香港中文大学   关键词: 扩散Transformers(DiT),规模缩放规律,预训练,文本到图像生成   作者: Zhengyang Liang,  Hao He,  Ceyuan Yang   分析: 这篇论文主要研究了扩散Transformers(DiT)在大模型领域的规模缩放规律。通过在不同计算预算范围内进行实验,首次确认了DiT存在规模缩放规律。具体地,预训练DiT的损失也随所涉及的计算量的幂律关系而变化。基于这个规模缩放规律,该论文不仅可以确定最优模型大小和所需数据,还可以准确预测具有10亿参数和1e21 FLOPs计算预 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览