今天看啥  ›  专栏  ›  阿里云基础设施

ACK AI Profiling:从黑箱到透明的问题剖析

阿里云基础设施  · 公众号  ·  · 2025-05-01 12:35
    

文章预览

01 背景 Kubernetes 作为 AI 时代下主要的操作系统,承载了绝大多数的 LLM 训练和推理的业务负载,这些 LLM 负载的普及推动了对 AI 训练与推理的精细化性能检测与调优需求,那么如何对一个在线的 AI 业务负载进行精细化的 Profiling 从而达到线上问题发现性能调优的目的呢? ACK AI Profiling 基于  eBPF  和动态进程注入,可以做到对 Kubernetes 中的 AI 应用进行用户无侵入、业务无感知、低 overhead 的性能分析,涵盖 Python 进程、CPU 调用、系统调用、CUDA 库和 CUDA 核函数五个方面的数据采集能力。通过对采集的结果数据进行分析,用户可以更好地定位应用容器的性能瓶颈并掌握对资源的利用程度,进而对应用进行问题定位和性能优化。 本文从一个通用的客户问题出发,描述了一个问题如何从前置排查到使用 AI Profiling 进行详细的排查,最后到问题定位与解决、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览