今天看啥  ›  专栏  ›  DASOU

Text Diffusion,来了!

DASOU  · 公众号  · 科技自媒体  · 2025-06-01 16:31
    

主要观点总结

作者李崇轩介绍了扩散模型的发展历程,包括连续扩散模型和离散扩散模型的研究进展,以及他们在语言模态上的应用。他详细描述了LLaDA系列工作,包括其在学术界和工业界的影响。作者还谈到了对扩散语言模型的看法,包括其潜力和挑战。

关键观点总结

关键观点1: 扩散模型的发展历程

作者介绍了扩散模型从连续扩散模型到离散扩散模型的发展过程,并详细介绍了其中的关键工作和重要人物。他强调了离散扩散模型在自然语言处理中的应用。

关键观点2: LLaDA系列工作的贡献和局限

作者详细介绍了LLaDA系列工作的目标、方法和成果,包括其在学术界和工业界的影响。他也谈到了LLaDA的局限性,如变长问题和未来研究方向。

关键观点3: 对扩散语言模型的看法

作者认为扩散语言模型有很大的潜力,但也面临很多挑战。他认为未来值得探索的方向包括技术突破和理论解释。


文章预览

作者:李崇轩,编辑:李rumor 卷友们好,最近Google推出的Gemini Diffusion引起了一波热烈的讨论,其实早在几个月前,就有一个叫Mercury Coder产品展现了Diffusion模型强大的推理能力。学术界也早在2025.02月就成功在8B规模上验证了冷启动训练Diffusion的效果(LLaDA [1] )。 相比AR的建模方式,Diffusion建模有三个优势: 并行推理,速度可以快好几倍 双向上下文建模,避免reversal curse [2] 同样可以做到test-time scaling 但是,由于LLM训练成本高昂,很少有人把Diffusion推到较大的规模。 LLaDA这篇工作不仅验证了Diffusion模型在8B规模内,与AR的训练Scaling相当,同时也冷启训练了达到Llama3-8B水平的开源Diffusion模型。 下面我转载了LLaDA的作者之一李崇轩在知乎上的一些分享,帮助大家了解Diffusion模型这几年的进展。 作者:李崇轩 https://www.zhihu.com/question/1908479621466396378/answer/19106 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览