FastVLM: Modelo de Lenguaje Visual Extremadamente Rápido de Apple

¡Se ejecuta directamente en iPhone, la salida del primer token es hasta 85 veces más rápida!

¿Cómo funciona?

Entender Imagen
Imagen → Tokens
Tokens → Lenguaje

FastVLM comprende eficientemente el contenido de la imagen, lo convierte en tokens compactos y luego utiliza estos tokens para generar rápidamente descripciones de texto o respuestas precisas.

Ventajas Principales

Velocidad Extrema

¡Asombrosa velocidad de salida del primer token! FastVLM-0.5B es 85 veces más rápido que LLaVA-OneVision. FastVLM-7B (con Qwen2) es 7.9 veces más rápido que Cambrian-1-8B (con precisión similar).

Compacto y Eficiente

Tamaño de modelo pequeño, implementación más fácil. FastVLM-0.5B es 3.4 veces más pequeño que LLaVA-OneVision. Ideal para uso en el dispositivo como iPhone, iPad, Mac.

Inteligencia en el Dispositivo

Sin dependencia de la nube, se ejecuta directamente en tu dispositivo Apple, protegiendo la privacidad y respondiendo más rápido.

Perfectamente adaptado al ecosistema iOS/Mac, potenciando las aplicaciones de IA en el borde.

Ejemplos Destacados

Ejemplo de conteo de FastVLM

Conteo de Objetos

Ejemplo de reconocimiento de escritura a mano de FastVLM

Reconocimiento de Escritura a Mano

Ejemplo de comprensión de Emojis de FastVLM

Comprensión de Emojis

Comparación de Rendimiento

Gráfico de comparación de precisión vs. latencia de FastVLM

Escenarios de Aplicación

Subtitulado de Imágenes

Genera automáticamente descripciones de texto vívidas y precisas para imágenes.

Respuesta Visual a Preguntas (VQA)

Comprende el contenido de la imagen y responde preguntas sobre la imagen.

Reconocimiento y Análisis de Imágenes

Reconoce objetos, texto o datos en imágenes para un análisis inteligente.

Especialmente adecuado para escenarios que requieren interacción en tiempo real de imagen y texto.

Descargas de Modelos

Checkpoints de PyTorch

ModeloEtapaEnlace de Descarga
FastVLM-0.5B2fastvlm_0.5b_stage2
FastVLM-0.5B3fastvlm_0.5b_stage3
FastVLM-1.5B2fastvlm_1.5b_stage2
FastVLM-1.5B3fastvlm_1.5b_stage3
FastVLM-7B2fastvlm_7b_stage2
FastVLM-7B3fastvlm_7b_stage3

Modelos Compatibles con Apple Silicon

Para facilitar la ejecución en dispositivos Apple Silicon, proporcionamos modelos en formatos preconvertidos:

FastVLM-0.5B (Etapa 3, fp16) Descargar
FastVLM-1.5B (Etapa 3, int8) Descargar
FastVLM-7B (Etapa 3, int4) Descargar

Aprende Más

Explora los detalles técnicos de FastVLM, consulta el código fuente o lee el artículo de investigación.

Acerca de FastVLM

FastVLM: El modelo de lenguaje visual ultrarrápido de Apple que se ejecuta directamente en iPhone, ¡con una salida del primer token hasta 85 veces más rápida!

© 2025 FastVLM. Todos los derechos reservados. | Política de privacidad | Términos de servicio