看啥推荐读物

专栏名称: 深度学习与计算机视觉

深度学习与计算机视觉碰撞出了新的火花，本公众号将坚持分享原创计算机视觉技术相关文章。主要分为实战教程、视觉领域最新咨询、国内外最新论文翻译三类。欢迎志同道合的朋友关注。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

为什么说大模型训练很难？

深度学习与计算机视觉 · 公众号 · · 2024-04-24 19:00

链接：https://www.zhihu.com/question/498271491编辑：深度学习与计算机视觉声明：仅做学术分享，侵删自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switch transformer，huawei推出2000亿稠密鹏程盘古大模型，微软推出Turing-NLG有1000亿参数，英伟达推出MegatronLM系列。大家都说大模型难，大模型训练除了集群调度麻烦，还难在哪里吗？作者：木川AI编程https://www.zhihu.com/question/498271491/answer/3356268187想象一下，你在玩一个超级复杂的电脑游戏，需要超多资源和技巧，还得有耐心。训练大型机器学习模型就有点像这样。它们就像是巨大的、复杂的“大脑”，可以做很多酷炫的事情，但要让它们运行起来，真的不简单 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博