专栏名称: AI早餐汇
每天早晨,最新鲜、最全面的AI资讯尽在AI早餐汇!AI大事全知道,您的贴身AI小秘书!
TodayRss-海外稳定RSS
目录
今天看啥  ›  专栏  ›  AI早餐汇

小米AI引擎团队负责人刘绍辉:小米大模型训练和推理Infra实践

AI早餐汇  · 公众号  · AI媒体 科技自媒体  · 2025-10-27 11:48
    

主要观点总结

小米基础技术部AI引擎团队负责人刘绍辉分享了小米在统一AI技术平台构建方面的探索和实践,包括构建四层架构体系、GPU算力调度的优化与标准化交付、GPU故障自愈系统的全流程自动化、高性能存储平台的分层构建与开源回馈、高性能网络的适配升级与问题诊断、训练与推理框架的适配优化及应用落地等关键点。

关键观点总结

关键观点1: 构建四层架构的统一AI技术平台

小米打造的统一AI技术平台全面覆盖训练、推理及AI应用等核心环节,为公司内部大语言模型、多模态模型、自动驾驶感知规控模型及各类生成式模型的研发提供了坚实支撑。

关键观点2: GPU算力调度的优化与标准化交付

小米AI引擎团队在K8s原生调度器基础上进行增强,打造了网络拓扑感知调度能力,通过自动构建集群网络拓扑确保网络通信高速传输,并提高GPU资源利用率。

关键观点3: GPU故障自愈系统的全流程自动化

针对GPU设备高负载运行导致的故障率上升问题,小米设计了一套全流程自动化的GPU故障自愈系统,实现故障检测、处理、替换、维修的闭环管理,故障自愈成功率超99%。

关键观点4: 高性能存储平台的分层构建与开源回馈

小米基于开源技术构建高性能文件存储平台,通过分层设计满足不同场景需求,并自研基于NVMe + RDMA的分布式高性能缓存层,提供三类存储服务。

关键观点5: 高性能网络的适配升级与问题诊断

小米在自建万卡集群中针对MoE训练场景开展硬件层与通信库层的专项优化,提升网络传输效率,并构建亚秒级网络监控体系,精准识别通信瓶颈。


免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
文章地址: 访问文章快照