注册登录

看啥推荐读物

专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

量化投资与机器学习 · Markowitz的组合管理理论给我们带来了什么？· 17 小时前

黄建同学 · Kimi Copilot - ...· 2 天前

新智元 · 贾佳亚团队新模型对标ChatGPT+DALL ...· 2 天前

宝玉xp · 福布斯发布2024年人工智能初创企业50强随 ...· 3 天前

爱可可-爱生活 · 【没有过去，就没有未来】- ...· 3 天前

今天看啥 › 专栏 › 机器之心

GPU捉襟见肘还想训练大批量模型？谁说不可以

机器之心 · 公众号 · AI · 2018-10-17 12:13

选自Medium机器之心编译深度学习模型和数据集的规模增长速度已经让 GPU 算力也开始捉襟见肘，如果你的 GPU 连一个样本都容不下，你要如何训练大批量模型？通过本文介绍的方法，我们可以在训练批量甚至单个训练样本大于 GPU 内存时，在单个或多个 GPU 服务器上训练模型。2018 年的大部分时间我都在试图训练神经网络时克服 GPU 极限。无论是在含有 1.5 亿个参数的语言模型（如 OpenAI 的大型生成预训练 Transformer 或最近类似的 BERT 模型）还是馈入 3000 万个元素输入的元学习神经网络（如我们在一篇 ICLR 论文《Meta-Learning a Dynamical Language Model》中提到的模型），我都只能在 GPU 上处理很少的训练样本。但在多数情况下，随机梯度下降算法需要很大批量才能得出不错的结果。如 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

量化投资与机器学习 · Markowitz的组合管理理论给我们带来了什么？

17 小时前

黄建同学 · Kimi Copilot - 网页总结助手，可以试试↓用Kimi-20240415120321

2 天前

新智元 · 贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合！读懂梗图刷爆榜单，代码复现数学函数

2 天前

宝玉xp · 福布斯发布2024年人工智能初创企业50强随着人工智能热潮的持续-20240415090057

3 天前

爱可可-爱生活 · 【没有过去，就没有未来】- 历史对于人类意识和社会记忆非常重要。-20240415075042

3 天前

梅斯医学 · 聚焦老年心血管/神经退行性疾病，让老年人“老有所医”

4 月前

保研论坛 · 2022年保研论坛信息交流群，就差你了！

1 年前

大聪看电影 · 2亿美元大投资《明日之战》！星爵下岗再就业！科幻(缝合)大片

2 年前

新东方在线 · 拿分必备！期中考数学备考资料【考点、易错点、实用公式】全总结

3 年前

A963设计网 · 美观实用都重要，这些超强收纳让你赞叹连连

7 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号