比A100性价比更高！FlightLLM让大模型推理不再为性能和成本同时发愁

机器之心 · 公众号 · AI · 2024-01-10 16:35

机器之心专栏机器之心编辑部大语言模型在端侧的规模化应用对计算性能、能效比需求的“提拽式”牵引，在算法与芯片之间，撕开了一道充分的推理竞争场。面对想象中的终端场景，基于 GPU 和 FPGA 的推理方案的应用潜力需要被重新审视。近日，无问芯穹、清华大学和上海交通大学联合提出了一种面向 FPGA 的大模型轻量化部署流程，首次在单块 Xilinx U280 FPGA 上实现了 LLaMA2-7B 的高效推理。第一作者为清华大学电子系博士及无问芯穹硬件负责人曾书霖，通讯作者为上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩，清华大学电子工程系教授、系主任及无问芯穹发起人汪玉。相关工作现已被可重构计算领域顶级会议 FPGA’24 接收。论文链接：https://arxiv.org/pdf/2401.03868.pdf回顾上一轮清华电子系相关工作被 FPGA 国际会议收录的踪迹，要追溯到 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博