FastVLM：苹果出品极速视觉语言模型

它是如何工作的？

看懂图像

图像 → Token

Token → 语言

FastVLM 先高效地理解图像内容，将其转换为紧凑的标记 (Tokens)，然后利用这些标记快速生成准确的文本描述或回答。

首 Token 输出速度惊人！FastVLM-0.5B 比 LLaVA-OneVision 快 85 倍。FastVLM-7B (结合 Qwen2) 比 Cambrian-1-8B 快 7.9 倍 (同等精度)。

模型体积小，部署更轻松。FastVLM-0.5B 比 LLaVA-OneVision 小 3.4 倍。非常适合 iPhone、iPad、Mac 等端侧设备。

无需依赖云端，直接在您的苹果设备上运行，保护隐私，响应更快。

完美适配 iOS/Mac 生态，赋能边缘 AI 应用。

物体计数

手写文字识别

Emoji 理解

自动为图片生成生动、准确的文字描述。

理解图片内容，并回答关于图片的提问。

识别图中的物体、文字或数据，进行智能分析。

特别适合需要实时处理图像和文本交互的场景。

为方便在 Apple Silicon 设备上运行，我们提供了以下预转换格式的模型：

FastVLM-0.5B (Stage 3, fp16) 下载

FastVLM-1.5B (Stage 3, int8) 下载

FastVLM-7B (Stage 3, int4) 下载