专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
今天看啥  ›  专栏  ›  字节跳动技术团队

基于LLM的AI应急:多模态信息智能化分析整合助力字节事故处置效率提升30%

字节跳动技术团队  · 公众号  · 架构  · 2025-06-04 11:36
    

文章预览

摘要:  2025年4月,基础架构-SRE-GOC、基础架构-SRE-数据化和基础架构-SRE-基础平台三个团队深入合作,将LLM的多模态信息智能化分析能力应用于故障应急领域,助力事故应急的AI智能化升级,事故应急整体效率提升30%。 一、背景介绍 “GOC”(Global Operations Center) 是字节跳动基础架构的稳定性保障组织,承接了字节集团主要核心业务的全量核心报警,提供7*24小时的监控盯屏+事故应急保障服务,是字节集团事故应急组织的一号位。 在整个应急流程中,监控是核心的一环,基础设施、基础组件、核心业务全链路的报警通过系统对接,转化为GOC 7*24值班台的应急事件,值班同学会进一步基于应急场景、指标异常、处置规范对每一条报警进行研判,发起不同程度的应急流程(风险预警,风险应急,事故应急),直至恢复闭环。 二、痛点分析 随着接入的监 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览