五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

3D视觉之心 · 公众号 · · 2024-07-14 07:00

文章预览

作者 | 机器之心编辑 | 机器之心点击下方卡片，关注“ 3D视觉之心 ”公众号第一时间获取 3D视觉干货 >> 点击进入→ 3D视觉之心技术交流群 2019 年 2 月，OpenAI 发布了 GPT-2，因为在文本生成上的优异表现，以及对于预训练 Transformer 架构的充分运用，被认为是如今大预言模型的「始祖」。五年后的今天，训练 GPT-2 这样 15 亿参数的大模型，只需要花费 672 美元，在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。本周四，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 在他纯 C 语言复现 GPT-2 大模型的项目「llm.c」的最新进展中分享了他的训练心得：令人难以置信的是，由于计算硬件（英伟达 H100 GPU）、软件（CUDA、cuBLAS、cuDNN、 FlashAttention 等）和数据质量（例如 FineWeb-Edu 数据集）的改进，过去 5 年间，大语言模型的训练成本大幅下降 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

科技美学 · 曝三星Galaxy S26有Exynos 2600版，基于 2 纳米工艺

昨天

科技美学 · 曝三星Galaxy S26有Exynos 2600版，基于 2 纳米工艺

昨天

人工智能那点事 · 退休副“教授”饮用储备水库游泳被阻称“说了身份吓死你” 校方回应了！

10 月前

GaiaDaily · 从实验到标准化：如今的虚拟制作行业现状

6 月前

墨尔本微生活 · 事发墨尔本东南区！女的没穿裤子，警方急寻这两人，看到报警！

2 月前

天赋一饼 · 女儿下决心要一辈子躺平，我听了眼前一黑....

2 月前