专栏名称: 字节跳动技术团队
字节跳动的技术实践分享
目录
今天看啥  ›  专栏  ›  字节跳动技术团队

ByteBrain团队EuroSys25 | 秒级推理强化学习系统,实现云计算虚机重调度

字节跳动技术团队  · 公众号  · 架构  · 2025-06-05 13:56
    

主要观点总结

本文介绍了字节跳动ByteBrain团队联合UC Merced和UC Berkeley提出的VMR²L系统,旨在解决云数据中心虚拟机重调度(VMR)问题。该系统结合了深度强化学习,在保持近似最优性能的同时,将推理时间压缩至1.1秒,实现了系统性能与工业可部署性的统一。文章还介绍了VMR的背景、动机、模型细节、实验结果和ByteBrain团队的相关介绍。

关键观点总结

关键观点1: 研究背景

虚拟机调度(VM Scheduling)和重调度(VM Rescheduling)是云数据中心的关键环节,以保障计算资源的高效利用。尽管初始调度已被广泛研究,但虚拟机重调度问题长期被忽视。特别是在大规模云数据中心,VMR面临诸多挑战,成为“重要却难解”的优化难题。

关键观点2: 挑战与动机

虚拟机重调度面临状态复杂、搜索空间巨大、系统约束多样、推理效率要求高等诸多挑战。为了满足系统实时性和高频调度的需求,必须满足低延迟推理的要求。

关键观点3: 方法与系统

本研究提出了VMR²L系统,采用深度强化学习的方法,设计了两阶段智能体结构,以支持复杂的系统约束。该系统具备碎片率优化、快速推理、适应不同优化目标和异常负载下的鲁棒性等特点。

关键观点4: 实验结果

实验结果表明,VMR²L在碎片率、推理延迟等方面均表现出优异的性能,显著优于传统启发式算法和其他强化学习方案。此外,VMR²L还具备良好的泛化能力和策略可视化工具。

关键观点5: 团队介绍

ByteBrain是字节跳动AI for Infra / AI for System服务平台,旨在利用AI技术对基础架构和系统的全生命周期进行自动优化。团队正在招聘相关方向研究员,联系方式为tieying.zhang@bytedance.com。


文章预览

在大规模云数据中心中,虚拟机(VM)调度是保障计算资源高效利用的关键环节。尽管初始调度(VMS)已被广泛研究,但运行一段时间后的虚拟机重调度(VMR)问题却长期被忽视。VMR 指的是在已有资源使用状态下,通过迁移部分已部署的 VM 来重组资源、降低碎片、提升整体资源利用率。然而,VMR 面临状态复杂、搜索空间巨大、系统约束多样、推理效率要求高等诸多挑战,成为云基础设施中“重要却难解”的优化难题。 为此, 字节跳动ByteBrain团队主导,联合UC Merced和UC Berkeley提出了 VMR²L,研发了一套基于深度强化学习的VMR系统,在保持近似最优性能的同时,将推理时间压缩至 1.1 秒,成功实现系统性能与工业可部署性的统一。本工作已在系统顶会EuroSys25发表。 论文标题:Towards VM Rescheduling Optimization Through Deep Reinforcement Learning 论文主页:https://dingxi ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览