专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

深度学习与NLP  · 公众号  ·  · 2024-06-06 16:58
    

文章预览

来源 | 新智元  ID | AI-era 在过去的几年里,Transformer架构在自然语言处理(NLP)、图像处理和视觉计算领域的深度表征学习中取得了显著的成就,几乎成为了AI领域的主导技术。 然而,虽然Transformer架构及其众多变体在实践中取得了巨大成功,但其设计大多是基于经验的,并没有严格的数学解释,也在一定程度上限制了研究人员的思路,无法开发出更高效、更具可解释性的Transformer新变体。 为了填补这一空白,马毅教授团队曾发布过白盒Transformer模型CRATE,其架构的每一层都是通过数学推导得到的,可以完全解释为展开的梯度下降迭代;此外,CRATE学习到的模型和特征在语义上也比传统的Transformer模型具有更好的可解释性,例如,即使模型仅在分类任务上进行训练,可视化图像的特征也能自然地形成该图像的零样本分割。 然而,到目前为止,CRATE的应 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览