专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
今天看啥  ›  专栏  ›  机器之心

85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型

机器之心  · 公众号  · AI  · 2025-05-17 00:31
    

文章预览

机器之心报道 作者:+0、刘欣 FastVLM—— 让苹果手机拥有极速视觉理解能力 当你用苹果手机随手拍图问 AI:「这是什么?」,背后的 FastVLM 模型正在默默解码。 最近,苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM(Fast  Vision Language Model)。 代码链接: https://github.com/apple/ml-fastvlm 代码仓库中还包括一个基于 MLX 框架的 iOS/macOS 演示应用,优化了在苹果设备上的运行性能。 看这个 demo,反应速度是不是反应非常「Fast」!这就是 FastVLM 的独特之处。 相较于传统模型,FastVLM 模型专门注重于解决 体积、速度 这两大问题,速度快到相对同类模型, 首个 token 输出速度提升 85 倍 。 该模型引入了一种新型混合视觉编码器  FastViTHD ,融合了卷积层和 Transformer 模块,配合多尺度池化和下采样技术,把图片处理所需的「视觉 token」数量砍 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览