BERT 详解（五）

桃子说产品 · 简书 · · 2019-12-30 23:41

Fine-tuning 微调

微调阶段根据不同任务使用不同网络模型。在微调阶段，大部分模型的超参数跟预训练时差不多，除了 batchsize，学习率，epochs。

训练参数：

随着文本长度的增加，所需显存容量也会随之呈现线性增加，运行时间也接近线性，对于不同任务而言，文本长度所带来的影响也不相同。对于分类问题，到一定的文本长度后，模型表现就几乎没有变化了，这个时候再去提升文本长度意义就不大了。

预训练 BERT 模型的文本长度最多支持 512，这是由于 Position Embedding 决定的，如果你的文本长度很长，你就需要采用截断或分批读取的方式来读入。

由于 BERT 支持最大长度为 512 个 token，有三种方式截取文本：

这三种思路都值得一试。

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

刀法研究所 · 米村拌饭海外首店落地新加坡；苹果或将推动Apple TV+服务入华；周大福深圳工厂停工停产... | 刀法品牌热讯

3 天前

刀法研究所 · 茉酸奶的4点危机征兆

3 天前

刀法研究所 · 雅诗兰黛或将涨价；ZARA计划在欧美尝试直播带货；日本丰田、马自达、本田高管鞠躬道歉... | 刀法品牌热讯

4 天前

刀法研究所 · 相纸太贵，买拍立得的人后悔了

4 天前

刀法研究所 · 最暴露年龄的一集，这6个国货品牌我居然全用过

5 天前

南国都市报 · 国家开发银行海南省分行原党委书记、行长刘春生被开除党籍

1 年前

果壳 · 成年人如何正确地过儿童节？

4 年前

白话区块链 · 白话区块链入门015 | 神奇而有趣的比特币

5 年前

睡前故事 · 从卖性药到卖救命药：我不是药神，救不了穷病！

5 年前

掌上新疆V · 3个未婚姑娘查出卵巢癌！最小的才16岁！医生说跟这个习惯有关…

6 年前