यह कैसे काम करता है?
FastVLM कुशलता से छवि सामग्री को समझता है, इसे कॉम्पैक्ट टोकन में परिवर्तित करता है, और फिर इन टोकन का उपयोग करके सटीक पाठ विवरण या उत्तर जल्दी से उत्पन्न करता है।
मुख्य लाभ
अत्यधिक गति
आश्चर्यजनक पहला टोकन आउटपुट गति! FastVLM-0.5B, LLaVA-OneVision से 85 गुना तेज है। FastVLM-7B (Qwen2 के साथ), Cambrian-1-8B से 7.9 गुना तेज है (समान सटीकता पर)।
कॉम्पैक्ट और कुशल
छोटा मॉडल आकार, आसान परिनियोजन। FastVLM-0.5B, LLaVA-OneVision से 3.4 गुना छोटा है। आईफोन, आईपैड, मैक जैसे ऑन-डिवाइस उपयोग के लिए आदर्श।
ऑन-डिवाइस इंटेलिजेंस
क्लाउड पर निर्भरता नहीं, सीधे आपके एप्पल डिवाइस पर चलता है, गोपनीयता की रक्षा करता है और तेजी से प्रतिक्रिया करता है।
आईओएस/मैक इकोसिस्टम के लिए पूरी तरह से अनुकूलित, एज एआई अनुप्रयोगों को सशक्त बनाता है।
उदाहरण प्रदर्शन

वस्तु गणना

हस्तलेखन पहचान

इमोजी समझ
प्रदर्शन तुलना

अनुप्रयोग परिदृश्य
छवि कैप्शनिंग
छवियों के लिए स्वचालित रूप से विशद और सटीक पाठ विवरण उत्पन्न करें।
विज़ुअल प्रश्न उत्तर (VQA)
छवि सामग्री को समझें और छवि के बारे में सवालों के जवाब दें।
छवि पहचान और विश्लेषण
बुद्धिमान विश्लेषण के लिए छवियों में वस्तुओं, पाठ या डेटा को पहचानें।
वास्तविक समय छवि और पाठ इंटरैक्शन की आवश्यकता वाले परिदृश्यों के लिए विशेष रूप से उपयुक्त है।
मॉडल डाउनलोड
PyTorch चेकपॉइंट्स
मॉडल | स्टेज | डाउनलोड लिंक |
---|---|---|
FastVLM-0.5B | 2 | fastvlm_0.5b_stage2 |
FastVLM-0.5B | 3 | fastvlm_0.5b_stage3 |
FastVLM-1.5B | 2 | fastvlm_1.5b_stage2 |
FastVLM-1.5B | 3 | fastvlm_1.5b_stage3 |
FastVLM-7B | 2 | fastvlm_7b_stage2 |
FastVLM-7B | 3 | fastvlm_7b_stage3 |
Apple Silicon संगत मॉडल
Apple Silicon उपकरणों पर चलाने की सुविधा के लिए, हम पूर्व-परिवर्तित प्रारूपों में मॉडल प्रदान करते हैं:
और जानें
FastVLM के तकनीकी विवरणों का अन्वेषण करें, स्रोत कोड देखें, या शोध पत्र पढ़ें।