FastVLM:蘋果出品極速視覺語言模型

在 iPhone 上直接運行,首 Token 輸出快達 85倍!

它是如何運作的?

看懂圖像
圖像 → Token
Token → 語言

FastVLM 先高效地理解圖像內容,將其轉換為緊湊的標記 (Tokens),然後利用這些標記快速生成準確的文本描述或回答。

核心優勢

極速響應

首 Token 輸出速度驚人!FastVLM-0.5B 比 LLaVA-OneVision 快 85 倍。FastVLM-7B (結合 Qwen2) 比 Cambrian-1-8B 快 7.9 倍 (同等精度)。

小巧高效

模型體積小,部署更輕鬆。FastVLM-0.5B 比 LLaVA-OneVision 小 3.4 倍。非常適合 iPhone、iPad、Mac 等終端裝置。

終端智能

無需依賴雲端,直接在您的蘋果裝置上運行,保護隱私,響應更快。

完美適配 iOS/Mac 生態,賦能邊緣 AI 應用。

範例展示

FastVLM 計數範例

物體計數

FastVLM 手寫識別範例

手寫文字識別

FastVLM Emoji 理解範例

Emoji 理解

效能比較

FastVLM 準確率與延遲比較圖

應用場景

圖像描述生成

自動為圖片生成生動、準確的文字描述。

視覺問答 (VQA)

理解圖片內容,並回答關於圖片的提問。

圖像識別與分析

識別圖中的物體、文字或數據,進行智能分析。

特別適合需要即時處理圖像和文本互動的場景。

模型下載

PyTorch Checkpoints

模型 (Model)階段 (Stage)下載連結 (Download Link)
FastVLM-0.5B2fastvlm_0.5b_stage2
FastVLM-0.5B3fastvlm_0.5b_stage3
FastVLM-1.5B2fastvlm_1.5b_stage2
FastVLM-1.5B3fastvlm_1.5b_stage3
FastVLM-7B2fastvlm_7b_stage2
FastVLM-7B3fastvlm_7b_stage3

Apple Silicon 相容模型

為方便在 Apple Silicon 裝置上運行,我們提供了以下預先轉換格式的模型:

FastVLM-0.5B (Stage 3, fp16) 下載
FastVLM-1.5B (Stage 3, int8) 下載
FastVLM-7B (Stage 3, int4) 下載

了解更多

探索 FastVLM 的技術細節,查看原始碼,或閱讀研究論文。

關於 FastVLM

FastVLM:蘋果出品,極速視覺語言模型,在 iPhone 上直接運行,首 Token 輸出快達 85 倍!

© 2025 FastVLM. 保留所有權利。 | 隱私政策 | 服務條款