FastVLM: Modelo de Linguagem Visual Extremamente Rápido da Apple

Como funciona?

Entender Imagem

Imagem → Tokens

Tokens → Linguagem

O FastVLM entende eficientemente o conteúdo da imagem, converte-o em tokens compactos e, em seguida, usa esses tokens para gerar rapidamente descrições de texto ou respostas precisas.

Vantagens Principais

Velocidade Extrema

Velocidade de saída do primeiro token surpreendente! FastVLM-0.5B é 85x mais rápido que o LLaVA-OneVision. FastVLM-7B (com Qwen2) é 7.9x mais rápido que o Cambrian-1-8B (com precisão semelhante).

Compacto e Eficiente

Tamanho de modelo pequeno, implantação mais fácil. FastVLM-0.5B é 3.4x menor que o LLaVA-OneVision. Ideal para uso no dispositivo como iPhone, iPad, Mac.

Inteligência no Dispositivo

Sem dependência da nuvem, executa diretamente no seu dispositivo Apple, protegendo a privacidade e respondendo mais rapidamente.

Perfeitamente adaptado ao ecossistema iOS/Mac, capacitando aplicações de IA de ponta.

Exemplos em Destaque

Contagem de Objetos

Reconhecimento de Escrita Manual

Compreensão de Emoji

Comparação de Desempenho

Gráfico de comparação de precisão vs. latência do FastVLM

Cenários de Aplicação

Legendas de Imagem

Gere automaticamente descrições de texto vívidas e precisas para imagens.

Resposta Visual a Perguntas (VQA)

Entenda o conteúdo da imagem e responda a perguntas sobre a imagem.

Reconhecimento e Análise de Imagem

Reconheça objetos, texto ou dados em imagens para análise inteligente.

Especialmente adequado para cenários que exigem interação em tempo real de imagem e texto.

Downloads de Modelos

Checkpoints PyTorch

Modelo	Estágio	Link para Download
FastVLM-0.5B	2	fastvlm_0.5b_stage2
FastVLM-0.5B	3	fastvlm_0.5b_stage3
FastVLM-1.5B	2	fastvlm_1.5b_stage2
FastVLM-1.5B	3	fastvlm_1.5b_stage3
FastVLM-7B	2	fastvlm_7b_stage2
FastVLM-7B	3	fastvlm_7b_stage3

Modelos Compatíveis com Apple Silicon

Para conveniência ao executar em dispositivos Apple Silicon, fornecemos modelos em formatos pré-convertidos:

FastVLM-0.5B (Stage 3, fp16) Baixar

FastVLM-1.5B (Stage 3, int8) Baixar

FastVLM-7B (Stage 3, int4) Baixar