看啥推荐读物
专栏名称: 磐创AI
AI行业最新动态,机器学习干货文章,深度学习原创博客,深度学习实战项目,Tensorflow中文原创教程,国外最新论文翻译。欢迎喜欢AI、关注深度学习的小伙伴加入我们。
今天看啥  ›  专栏  ›  磐创AI

BERT蒸馏完全指南|原理/技巧/代码

磐创AI  · 公众号  ·  · 2020-11-06 23:15
  磐创AI分享  来源 | 李rumor作者 | rumor小朋友,关于模型蒸馏,你是否有很多问号:蒸馏是什么?怎么蒸BERT?BERT蒸馏有什么技巧?如何调参?蒸馏代码怎么写?有现成的吗?今天rumor就结合Distilled BiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型,带大家把BERT蒸馏整到明明白白!模型蒸馏原理Hinton在NIPS2014[1]提出了知识蒸馏(Knowledge Distillation)的概念,旨在把一个大模型或者多个模型ensemble学到的知识迁移到另一个轻量级单模型上,方便部署。简单的说就是用小模型去学习大模型的预测结果,而不是直接学习训练集中的label。在蒸馏的过程中,我们将原始大模型称为教师模型(teacher),新的小模型称为学生模型(student),训练集中的标签称为hard label,教师模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照