O vídeo do canal ViktorKav avalia o desempenho de oito modelos de linguagem locais em uma VPS com apenas 8 GB de RAM, comparando-os ao GPT-4o da OpenAI. O autor analisa se essas ferramentas leves conseguem realizar tarefas de extração de dados e monitoramento de preços para seu site de promoções sem custos de API. Os testes revelam que, embora nenhum modelo local substitua totalmente a capacidade do GPT-4o para cadastros completos, as versões Gemma 4 2B (text-only) e Ministral 3B alcançaram 100% de precisão no rastreio de valores. A conclusão destaca que é viável economizar recursos ao migrar processos repetitivos de monitoramento para IA local, mantendo a privacidade e latência zero. O criador reforça que, apesar das limitações de hardware, modelos otimizados pela comunidade já oferecem utilidade prática em ambientes de produção específicos.
IA Local em VPS: Teste de Performance e Eficiência Econômica
A viabilidade de rodar modelos de Inteligência Artificial (IA) localmente tem se tornado uma alternativa atraente para quem busca privacidade, redução de custos por requisição e independência de grandes provedores como OpenAI e Google. No entanto, surge o desafio técnico: é possível obter resultados profissionais usando hardware limitado, como uma VPS de 8 GB de RAM que já processa outros serviços simultaneamente?
O Cenário do Teste e a Metodologia
O experimento foi conduzido em uma VPS da Hostinger com 8 GB de RAM e duas CPUs virtuais, ambiente onde já rodam sites, painéis de stream e scrapers de preços. O objetivo foi verificar se modelos locais poderiam substituir o GPT-4o (referido como GPT5 no vídeo) em uma tarefa real do site VK Promos: a extração de dados de produtos da Amazon e Mercado Livre para cadastro e monitoramento.
Foram testados oito modelos de diferentes fabricantes, selecionando as versões mais leves e recentes que coubessem no hardware e estivessem disponíveis via Ollama:
- Meta: Llama 3.2 3B.
- Google: Gemma 3 4B e uma versão da comunidade do Gemma 4 2B (apenas texto).
- Mistral: Mistral 3B e Mistral 8B (com quantização Q3).
- Outros: Qwen 2.5 4B, Nvidia Nemotron e Deepseek.
A avaliação utilizou dois “gabaritos” (GPT-4o e Claude 3.5 Sonnet) para comparar a utilidade, cobertura e taxa de alucinação das extrações em formato JSON.
Performance e Velocidade (Tokens por Segundo)
Antes dos testes de precisão, mediu-se a velocidade de geração. O Llama 3.2 3B foi o mais rápido, atingindo 11,2 tokens/s, enquanto o Qwen 2.5 4B foi o mais lento (3,6 tokens/s), evidenciando que o tamanho dos parâmetros não é o único fator na velocidade, mas também a otimização. Nota-se que o desempenho local é de 10 a 30 vezes mais lento que uma API paga, porém com custo zero e latência mínima por ser processado no próprio servidor.
Resultados: Cadastro Completo vs. Monitoramento
O teste revelou duas conclusões distintas dependendo da complexidade da tarefa:
- Cadastro Completo (Fracasso): Nenhum modelo local conseguiu substituir totalmente o GPT-4o para criar descrições, categorias e listas de prós e contras. O melhor desempenho foi do Gemma 4 2B (texto), com apenas 52,2% de utilidade. Modelos como Llama 3.2 e Qwen falharam drasticamente, deixando a maioria dos campos vazios.
- Monitoramento de Preços (Sucesso): Para o monitoramento diário de mudanças de preço — a parte que mais gera custos em APIs — os resultados foram surpreendentes. O Gemma 4 2B e o Mistral 3B acertaram 100% dos preços e parcelamentos dos produtos testados.
Alucinação Sistemática vs. Estrutural
Um ponto técnico crucial observado foi a diferença entre tipos de erro. O Gemma 4 apresentou uma “alucinação sistemática”: ele extraía o preço corretamente, mas afirmava erroneamente que o produto estava indisponível. Por ser um erro constante e identificável, pode ser corrigido com uma simples linha de código. Já o Nemotron apresentou alucinações estruturais graves, inventando dados e trocando idiomas, o que o torna inviável para produção.
Conclusão e Estratégia Híbrida
A principal lição é que, embora a IA local em hardware modesto ainda não consiga realizar tarefas criativas complexas com a mesma maestria que modelos de ponta, ela é extremamente eficiente para tarefas específicas e repetitivas.
A estratégia recomendada para otimização econômica em 2026 envolve um modelo híbrido:
- Nuvem (GPT-4o/Claude): Usado para o cadastro inicial do produto (alto valor agregado, baixa frequência).
- Local (Gemma 4/Mistral 3B): Usado para o monitoramento contínuo de preços (baixa complexidade, alta frequência), eliminando o custo recorrente de milhares de chamadas de API.