FastVLM: एप्पल का अत्यधिक तेज़ विज़न लैंग्वेज मॉडल

यह कैसे काम करता है?

छवि समझें

छवि → टोकन

टोकन → भाषा

FastVLM कुशलता से छवि सामग्री को समझता है, इसे कॉम्पैक्ट टोकन में परिवर्तित करता है, और फिर इन टोकन का उपयोग करके सटीक पाठ विवरण या उत्तर जल्दी से उत्पन्न करता है।

मुख्य लाभ

अत्यधिक गति

आश्चर्यजनक पहला टोकन आउटपुट गति! FastVLM-0.5B, LLaVA-OneVision से 85 गुना तेज है। FastVLM-7B (Qwen2 के साथ), Cambrian-1-8B से 7.9 गुना तेज है (समान सटीकता पर)।

कॉम्पैक्ट और कुशल

छोटा मॉडल आकार, आसान परिनियोजन। FastVLM-0.5B, LLaVA-OneVision से 3.4 गुना छोटा है। आईफोन, आईपैड, मैक जैसे ऑन-डिवाइस उपयोग के लिए आदर्श।

ऑन-डिवाइस इंटेलिजेंस

क्लाउड पर निर्भरता नहीं, सीधे आपके एप्पल डिवाइस पर चलता है, गोपनीयता की रक्षा करता है और तेजी से प्रतिक्रिया करता है।

आईओएस/मैक इकोसिस्टम के लिए पूरी तरह से अनुकूलित, एज एआई अनुप्रयोगों को सशक्त बनाता है।

उदाहरण प्रदर्शन

वस्तु गणना

हस्तलेखन पहचान

इमोजी समझ

प्रदर्शन तुलना

अनुप्रयोग परिदृश्य

छवि कैप्शनिंग

छवियों के लिए स्वचालित रूप से विशद और सटीक पाठ विवरण उत्पन्न करें।

विज़ुअल प्रश्न उत्तर (VQA)

छवि सामग्री को समझें और छवि के बारे में सवालों के जवाब दें।

छवि पहचान और विश्लेषण

बुद्धिमान विश्लेषण के लिए छवियों में वस्तुओं, पाठ या डेटा को पहचानें।

वास्तविक समय छवि और पाठ इंटरैक्शन की आवश्यकता वाले परिदृश्यों के लिए विशेष रूप से उपयुक्त है।

मॉडल डाउनलोड

PyTorch चेकपॉइंट्स

मॉडल	स्टेज	डाउनलोड लिंक
FastVLM-0.5B	2	fastvlm_0.5b_stage2
FastVLM-0.5B	3	fastvlm_0.5b_stage3
FastVLM-1.5B	2	fastvlm_1.5b_stage2
FastVLM-1.5B	3	fastvlm_1.5b_stage3
FastVLM-7B	2	fastvlm_7b_stage2
FastVLM-7B	3	fastvlm_7b_stage3

Apple Silicon संगत मॉडल

Apple Silicon उपकरणों पर चलाने की सुविधा के लिए, हम पूर्व-परिवर्तित प्रारूपों में मॉडल प्रदान करते हैं:

FastVLM-0.5B (Stage 3, fp16) डाउनलोड करें

FastVLM-1.5B (Stage 3, int8) डाउनलोड करें

FastVLM-7B (Stage 3, int4) डाउनलोड करें