专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

大模型中有哪些形式简单却很巧妙的上分方法?

深度学习与NLP  · 公众号  · 科技自媒体  · 2024-11-12 08:00
    

主要观点总结

本文介绍了作者在深度学习模型训练过程中的一些策略和方法,包括算力碾压、超参数调整、模型结构改动、增量设计、测试方法等。这些策略和方法可以用于提高模型的性能,但也需要谨慎使用,避免不当操作。

关键观点总结

关键观点1: 算力碾压

通过改变batch size、增加训练轮次、调整模型结构等方式提高模型性能。

关键观点2: 超参数调整

通过调整学习率、优化器等超参数来优化模型性能。

关键观点3: 模型结构改动

通过替换模型组件、添加SE layer、改变连接等方式改进模型结构以提高性能。

关键观点4: 增量设计

通过添加新的损失函数、扩展模型组件等方式增加模型的复杂性以提高性能。

关键观点5: 测试方法

介绍了一些测试方法,包括选择性地报告指标、改变测试场景、使用新的评价指标等。这些方法可以帮助提高模型的性能评价,但也需要保证公平性和透明度。


文章预览

作者:黄哲威 hzwer 链接:https://www.zhihu.com/question/347847220/answer/26536819499 前大模型时代写过一些深度学习的上分方法: 所有数据集上给神经网络刷分的通用方法 这里加一些hzwer分享的也适用于大模型的。 算力碾压 1.1 改大 batchsize,假装迭代次数对齐 1.2 多训 epoch,但是不明说,把训练长度换成以迭代次数报告,反之亦然,反正不能让人一眼看出来不对齐 1.3 epoch 数不变,但是一个样本用好几回,从而偷偷多过数据 1.4 把模型里下采样次数减小,模型计算量大了好几倍,但是只和别人比参数量 1.5 不在意计算量和参数量的领域狂堆算力 1.6 把算力很大的组件描述一笔带过,效率分析也只分析其它组件 1.7 用重参数化把模型搞的很大,训练很慢但是反正比推理开销 1.8 EMA / 多模型融合涨点,有条件还能自蒸馏 1.9 选个超级小的训练集,这样只要专心解决过拟 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览