今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

ALTO:复合AI系统的高效网络编排器

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-04-22 12:37
24年3月斯坦福大学、CMU和伯克利分校的论文“ALTO: An Efficient Network Orchestrator for Compound AI Systems”。ALTO,一种网络编排器,用于高效地服务复合 AI 系统,例如语言模型流水线。ALTO 通过利用特定于生成语言模型的优化机会(流式中间输出)来实现高吞吐量和低延迟。当语言模型逐token生成输出时,ALTO 在可能的情况下提供跨阶段传输中间输出的机会。跨分布式流水线阶段实例的中间数据传输,有两个新挑战:正确性和负载平衡。为应对这些挑战,提出一个聚合-觉察路由接口和分布式提示-觉察调度的需求。复合AI系统前端许多框架和特定域的编程语言提供了使用高级抽象表达复合AI系统的接口[5,13,18,42]。给定一些中间转换层,ALTO 可以有效地服务于这些更高级别抽象中表达的流水线。LM 服务系统LM 服务系统通过跨请求有效管理 LM 计算使用的内存来优化 L ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照