FastVLM: نموذج لغة رؤية فائق السرعة من آبل

كيف يعمل؟

فهم الصورة

صورة ← رموز

رموز ← لغة

يفهم FastVLM محتوى الصورة بكفاءة، ويحولها إلى رموز مدمجة، ثم يستخدم هذه الرموز لتوليد أوصاف نصية دقيقة أو إجابات بسرعة.

المزايا الأساسية

سرعة فائقة

سرعة مذهلة في إخراج الرمز الأول! FastVLM-0.5B أسرع بـ 85 مرة من LLaVA-OneVision. FastVLM-7B (مع Qwen2) أسرع بـ 7.9 مرة من Cambrian-1-8B (بنفس الدقة تقريبًا).

مدمج وفعال

حجم نموذج صغير، نشر أسهل. FastVLM-0.5B أصغر بـ 3.4 مرة من LLaVA-OneVision. مثالي للاستخدام على الجهاز مثل آيفون، آيباد، ماك.

ذكاء على الجهاز

لا يعتمد على السحابة، يعمل مباشرة على جهاز Apple الخاص بك، مما يحمي الخصوصية ويستجيب بشكل أسرع.

متكيف تمامًا مع نظام iOS/Mac البيئي، مما يمكّن تطبيقات الذكاء الاصطناعي الطرفية.

أمثلة توضيحية

عد الأشياء

التعرف على خط اليد

فهم الرموز التعبيرية

مقارنة الأداء

مخطط مقارنة الدقة مقابل زمن الاستجابة لـ FastVLM

سيناريوهات التطبيق

إنشاء تسميات توضيحية للصور

إنشاء أوصاف نصية حية ودقيقة للصور تلقائيًا.

الإجابة على الأسئلة المرئية (VQA)

فهم محتوى الصورة والإجابة على الأسئلة المتعلقة بالصورة.

التعرف على الصور وتحليلها

التعرف على الكائنات أو النصوص أو البيانات في الصور للتحليل الذكي.

مناسب بشكل خاص للسيناريوهات التي تتطلب تفاعلًا فوريًا بين الصور والنصوص.

تنزيلات النماذج

نقاط حفظ PyTorch

النموذج	المرحلة	رابط التنزيل
FastVLM-0.5B	2	fastvlm_0.5b_stage2
FastVLM-0.5B	3	fastvlm_0.5b_stage3
FastVLM-1.5B	2	fastvlm_1.5b_stage2
FastVLM-1.5B	3	fastvlm_1.5b_stage3
FastVLM-7B	2	fastvlm_7b_stage2
FastVLM-7B	3	fastvlm_7b_stage3

نماذج متوافقة مع Apple Silicon

لسهولة التشغيل على أجهزة Apple Silicon، نوفر نماذج بتنسيقات محولة مسبقًا:

FastVLM-0.5B (المرحلة 3، fp16) تنزيل

FastVLM-1.5B (المرحلة 3، int8) تنزيل

FastVLM-7B (المرحلة 3، int4) تنزيل