FastVLM: Modelo de Linguagem Visual Extremamente Rápido da Apple

Executa diretamente no iPhone, saída do primeiro token até 85x mais rápida!

Como funciona?

Entender Imagem
Imagem → Tokens
Tokens → Linguagem

O FastVLM entende eficientemente o conteúdo da imagem, converte-o em tokens compactos e, em seguida, usa esses tokens para gerar rapidamente descrições de texto ou respostas precisas.

Vantagens Principais

Velocidade Extrema

Velocidade de saída do primeiro token surpreendente! FastVLM-0.5B é 85x mais rápido que o LLaVA-OneVision. FastVLM-7B (com Qwen2) é 7.9x mais rápido que o Cambrian-1-8B (com precisão semelhante).

Compacto e Eficiente

Tamanho de modelo pequeno, implantação mais fácil. FastVLM-0.5B é 3.4x menor que o LLaVA-OneVision. Ideal para uso no dispositivo como iPhone, iPad, Mac.

Inteligência no Dispositivo

Sem dependência da nuvem, executa diretamente no seu dispositivo Apple, protegendo a privacidade e respondendo mais rapidamente.

Perfeitamente adaptado ao ecossistema iOS/Mac, capacitando aplicações de IA de ponta.

Exemplos em Destaque

Exemplo de contagem FastVLM

Contagem de Objetos

Exemplo de reconhecimento de escrita manual FastVLM

Reconhecimento de Escrita Manual

Exemplo de compreensão de Emoji FastVLM

Compreensão de Emoji

Comparação de Desempenho

Gráfico de comparação de precisão vs. latência do FastVLM

Cenários de Aplicação

Legendas de Imagem

Gere automaticamente descrições de texto vívidas e precisas para imagens.

Resposta Visual a Perguntas (VQA)

Entenda o conteúdo da imagem e responda a perguntas sobre a imagem.

Reconhecimento e Análise de Imagem

Reconheça objetos, texto ou dados em imagens para análise inteligente.

Especialmente adequado para cenários que exigem interação em tempo real de imagem e texto.

Downloads de Modelos

Checkpoints PyTorch

ModeloEstágioLink para Download
FastVLM-0.5B2fastvlm_0.5b_stage2
FastVLM-0.5B3fastvlm_0.5b_stage3
FastVLM-1.5B2fastvlm_1.5b_stage2
FastVLM-1.5B3fastvlm_1.5b_stage3
FastVLM-7B2fastvlm_7b_stage2
FastVLM-7B3fastvlm_7b_stage3

Modelos Compatíveis com Apple Silicon

Para conveniência ao executar em dispositivos Apple Silicon, fornecemos modelos em formatos pré-convertidos:

FastVLM-0.5B (Stage 3, fp16) Baixar
FastVLM-1.5B (Stage 3, int8) Baixar
FastVLM-7B (Stage 3, int4) Baixar

Saiba Mais

Explore os detalhes técnicos do FastVLM, veja o código-fonte ou leia o artigo de pesquisa.

Sobre FastVLM

FastVLM: O modelo de linguagem visual ultrarrápido da Apple que roda diretamente no iPhone, com saída do primeiro token até 85 vezes mais rápida!

© 2025 FastVLM. Todos os direitos reservados. | Política de Privacidade | Termos de Serviço