专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
目录
今天看啥  ›  专栏  ›  智东西

OpenAI揭秘GPT-4.5训练:10万块GPU,几乎全员上阵,出现“灾难性问题”

智东西  · 公众号  · 科技媒体  · 2025-04-13 14:18
    

文章预览

我们离理想中的训练系统还很遥远。 编译 |   陈骏达 陈家阳 编辑 |   Panken 智东西4月13日消息,近日,在OpenAI史上最贵模型GPT-4.5发布1个多月后,OpenAI联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)与GPT-4.5的3位核心技术人员进行了一场45分钟的高信息量对谈,首次披露了这款模型 研发耗时严重超期 、 计算集群频繁故障 、 提升路径难以预测 等诸多不为人知的细节。 GPT-4.5项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,阿尔特曼称OpenAI为了这一项目几乎是“全员上阵”。 研发过程中,OpenAI团队遇到了不少“ 灾难性问题 ”。10万卡集群暴露了基础设施的隐藏的小概率、深层次故障,为了权衡时效与性能,OpenAI的系统团队不得不“ 边修边训 ”。其中,有一个隐藏的小bug让集群频繁报错,直到训练进度条走过约40%才被揪出。 不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览