





Claude Code Grátis: Guia de Configuração via Open Router e Local
As fontes explicam como configurar o Claude Code para funcionar de maneira totalmente gratuita, superando as limitações de custo dos modelos oficiais da Anthropic. Os tutoriais detalham o uso do Open Router, que atua como um roteador de chaves de API, permitindo a integração de diversos modelos de linguagem sem custos adicionais. Outra alternativa apresentada é a execução local de modelos através do Ollama, utilizando o processamento do próprio computador do usuário via terminal ou VS Code. Os autores fornecem instruções passo a passo para editar arquivos de configuração JSON e instalar dependências necessárias em sistemas Windows e Mac. Embora os modelos gratuitos possam ter desempenho inferior aos pagos, as fontes demonstram que é possível realizar tarefas de programação e criar projetos simples de forma acessível. O objetivo central é democratizar o acesso à ferramenta, permitindo que desenvolvedores iniciantes explorem suas funcionalidades sem investimentos financeiros imediatos.
O Claude Code é uma ferramenta de terminal que atua como um agente de codificação, capaz de ler, editar e executar comandos em projetos de software de forma autônoma. Embora seja nativamente integrado aos modelos pagos da Anthropic (como o Claude 3.5 Sonnet), as fontes revelam que é possível utilizá-lo de forma totalmente gratuita ou com baixo custo ao trocar o “motor” (modelo de IA) que o alimenta.
Abaixo, detalhamos as principais estratégias e configurações apresentadas nas fontes para otimizar o uso desta ferramenta.
1. O Conceito de Carro vs. Motor
Para entender a customização do Claude Code, as fontes utilizam a analogia de um carro de Fórmula 1:
- O Carro: Representa a interface, as habilidades (skills), a memória de contexto e as integrações MCP (Model Context Protocol) do Claude Code.
- O Motor: Representa o modelo de linguagem (LLM) que processa as tarefas. Você pode manter a “carcaça” do Claude Code e trocar o motor original por modelos gratuitos como o Gemini, Llama, Qwen ou Gemma.
2. Integração via OpenRouter (Nuvem Gratuita)
O OpenRouter funciona como um agregador de modelos que permite conectar o Claude Code a diversas IAs através de uma única chave de API.
- Configuração Local e Global: É possível configurar o uso de modelos gratuitos apenas para um projeto específico (criando uma pasta
.cloudcom um arquivosettings.json) ou de forma global no computador. - Modelos Recomendados: Modelos como Qwen 2.5 72B, Gemma 2 e Nvidia Nemotron são citados como boas opções gratuitas para programação.
- Roteamento Automático: O comando
openrouter/freepermite que a plataforma selecione automaticamente o melhor modelo gratuito disponível no momento.
3. Execução 100% Local (Ollama e LM Studio)
Para quem deseja privacidade total e custo zero de API, as fontes sugerem rodar modelos diretamente no hardware do próprio computador.
- Ollama: Permite baixar modelos como o Llama 3 para rodar localmente. O Claude Code é então iniciado com um comando que aponta para o servidor local do Ollama.
- LM Studio: Funciona como um servidor de modelos locais. Através da ferramenta OpenCloud (uma versão alternativa do Claude Code), o usuário pode conectar o terminal ao LM Studio via localhost.
- Hardware: O desempenho depende da máquina do usuário. Modelos menores (como o Gemma 2B) rodam em computadores básicos, enquanto modelos mais potentes exigem placas de vídeo com mais VRAM.
4. Hacks para Economia de Tokens e Produtividade
Mesmo para quem usa a versão paga ou APIs baratas, otimizar o uso de tokens é crucial para evitar bloqueios e gastos excessivos:
- O Ciclo Exponencial: O Claude Code relê todo o histórico a cada nova mensagem. Para evitar que o custo cresça exponencialmente, deve-se usar o comando
/clearao mudar de tarefa. - Arquivo CLAUDE.md: Funciona como um índice do projeto. Ao manter as diretrizes e a estrutura do código neste arquivo, o agente gasta menos tokens “procurando” arquivos e entendendo o contexto.
- Compactação Manual: O comando
/compactdeve ser usado por volta de 60% do limite de contexto para resumir a conversa e preservar instruções críticas. - Modo de Planejamento: Ativar o
/play(ou modo plan) faz com que a IA pense antes de agir, o que pode parecer caro inicialmente, mas evita erros que consumiriam mais tokens em correções futuras. - Horários de Pico: Recomenda-se evitar o uso intenso entre 09:00 e 15:00 (horário de Brasília), quando o tráfego nos servidores pode tornar o uso mais instável ou caro.
5. Considerações sobre Performance (Compensações)
As fontes ressaltam que não existem soluções perfeitas, apenas compensações (trade-offs):
- Tempo vs. Dinheiro: Modelos gratuitos geralmente são mais lentos, cometem mais erros e exigem mais ajustes manuais do que o Claude 3.5 Sonnet original.
- Uso Recomendado: Modelos gratuitos são ideais para aprendizado, testes e projetos pessoais. Para projetos comerciais complexos, o investimento nos modelos oficiais da Anthropic ainda é recomendado pela sua precisão e produtividade.
Como configurar o arquivo CLAUDE.md para economizar tokens?
Para configurar o arquivo CLAUDE.md de forma a economizar tokens, você deve tratá-lo como um guia mestre ou índice de caminhos para o agente de IA. Esse arquivo Markdown deve ser colocado na raiz do seu projeto e serve como o ponto de partida obrigatório para a IA antes de qualquer ação.
Aqui estão as diretrizes detalhadas para a configuração eficiente deste arquivo, conforme as fontes:
1. Estrutura de Conteúdo Ideal
O segredo para economizar tokens é evitar que a IA precise ler todos os arquivos do projeto individualmente para entender o contexto. O arquivo deve conter:
- Descrição do Projeto: Uma explicação clara do que se trata o software.
- Índice de Caminhos: Mapeie as pastas e arquivos principais (ex: Pasta X contém arquivos de front-end, Pasta Y contém as funções de banco de dados).
- Explicação de Skills: Se o projeto utiliza várias skills, descreva brevemente o que cada uma faz para que o agente saiba exatamente qual acionar.
2. Regra das 200 Linhas
Para manter a eficiência máxima e evitar que o próprio guia consuma muitos tokens desnecessariamente, o recomendado é manter o arquivo CLAUDE.md abaixo de 200 linhas. Um arquivo conciso permite que a IA localize a informação necessária sem “se perder” em descrições excessivamente longas.
3. Automação da Criação
Você não precisa escrever tudo manualmente. É possível pedir ao próprio Claude para analisar o projeto e criar o CLAUDE.md para você. Após a criação do arquivo, a recomendação é usar o comando /clear para limpar o histórico e iniciar uma nova conversa, permitindo que a IA passe a utilizar o novo índice de forma otimizada desde o início.
4. Por que isso economiza tokens?
Sem esse arquivo, o Claude tende a abrir e ler diversos arquivos sequencialmente para entender a arquitetura do código e decidir onde realizar uma alteração. Com o CLAUDE.md configurado como um índice, ele vai diretamente ao arquivo ou pasta relevante, reduzindo drasticamente o volume de dados processados em cada interação.
Qual a diferença entre rodar modelos locais via Ollama e LM Studio?
De acordo com as fontes, a principal diferença entre rodar modelos locais via Ollama e LM Studio reside na interface de usuário e na forma como o desenvolvedor interage com a ferramenta para configurar o Claude Code (ou suas versões alternativas como o OpenCloud).
As principais distinções apresentadas são:
1. Interface e Facilidade de Uso
- LM Studio: É descrito como um programa com uma interface gráfica (GUI) amigável. Ele possui um ícone de “lupa” para pesquisar modelos e permite baixar LLMs com cliques em botões, funcionando no estilo “next, next, next” para instalação.
- Ollama: É apresentado como uma ferramenta que funciona prioritariamente via terminal. Embora seja descrito como uma “loja” de modelos, a interação para baixar, listar e rodar as IAs é feita através de linhas de comando (como
ollama runouollama list).
2. Servidor e Conectividade
- LM Studio: Atua como um servidor local onde o usuário precisa “ligar” uma chave para iniciar o serviço. Ele utiliza por padrão a porta 1234 (localhost:1234), que deve ser apontada nas configurações do agente de codificação.
- Ollama: Também roda o processamento localmente na máquina do usuário, mas nas fontes ele é mostrado sendo integrado ao Claude Code através de comandos que dizem à ferramenta para usar o “cérebro” (modelo) baixado no próprio computador em vez dos servidores da Anthropic.
3. Gerenciamento de Modelos
- LM Studio: Facilita a cópia do nome exato do modelo (que deve ser idêntico nas configurações) através de um botão com “dois quadradinhos” na interface. Ele também mostra claramente o status de carregamento da LLM na memória (VRAM da placa de vídeo ou RAM).
- Ollama: O gerenciamento é feito via terminal, onde o usuário visualiza o progresso do download e o tamanho dos arquivos (ex: 19 GB para modelos maiores ou 4 GB para versões “basiquinhas”) diretamente na linha de comando.
4. Contexto de Aplicação
- Nas fontes, o LM Studio é frequentemente associado ao uso do OpenCloud, uma versão alternativa e refatorada do Claude Code que permite o uso ilimitado de modelos locais.
- O Ollama é mostrado sendo usado diretamente com o Claude Code original (instalado via npm), utilizando comandos específicos para referenciar o modelo local instalado na máquina.
Em ambos os casos, a grande vantagem compartilhada é a privacidade (nenhum dado sai da máquina) e a ausência de custos com chaves de API, embora o desempenho dependa inteiramente do hardware (placa de vídeo e memória RAM) do usuário.