Guía para ejecutar Claude Code usando modelos de Ollama (local o cloud) enfocado a codificación.
- Descarga de Ollama: https://ollama.com/download
- Documentación oficial: https://docs.ollama.com/integrations/claude-code
El comando ollama launch es nuevo. Si tienes una versión antigua (por ejemplo 0.11.x), verás:
Error: unknown command "launch" for "ollama"
Verifica tu versión:
ollama --versionO reinstala desde https://ollama.com/download
Los modelos
:cloud(kimi-k2.5:cloud,glm-5:cloud, etc.) también requieren la versión nueva. Con versiones antiguas solo puedes usar modelos locales.
De mejor a más ligero:
| Modelo | Tipo | Uso ideal |
|---|---|---|
kimi-k2.5:cloud |
Cloud | El más potente para código, comparable a Claude |
glm-5:cloud |
Cloud | Excelente alternativa, muy buen razonamiento |
minimax-m2.7:cloud |
Cloud | Buen balance |
qwen3.5:cloud |
Cloud | Rápido y sólido para código |
glm-4.7-flash |
Local | Ligero, corre en tu máquina |
qwen3.5 |
Local | El mejor local para codificar |
Los
:cloudcorren en servidores de Ollama (necesitas cuenta, gratis con límites). Los modelos sin sufijo corren 100% local.
Más modelos cloud: https://ollama.com/search?c=cloud
Puedes descargar y preparar los modelos locales más recomendados para codificación con estos comandos en tu terminal:
ollama pull glm-4.7-flash
ollama pull qwen3.5Esto descargará los modelos y quedarán listos para usarse desde Claude Code o desde la línea de comandos de Ollama.
Si necesitas liberar espacio después, puedes eliminar modelos con:
ollama rm NOMBRE_DEL_MODELO
No, pero sí necesitas una cuenta gratuita en Ollama. El plan Free permite usar los modelos cloud con límites.
| Plan | Precio | Uso cloud | Modelos concurrentes |
|---|---|---|---|
| Free | $0 | "Uso ligero" | 1 |
| Pro | $20/mes ($200/año) | 50× más que Free | 3 |
| Max | $100/mes | 5× más que Pro | 10 |
El uso se mide por tiempo de GPU (no por tokens). Los límites se resetean:
- Sesión: cada 5 horas
- Semanal: cada 7 días
- Chatear con modelos
- Evaluar modelos grandes
- Coding y asistentes con modelos pequeños ← aquí entra Claude Code
Para uso intensivo día a día (agentes continuos, sesiones largas) recomiendan Pro.
| Modelo | ¿Gratis? | Notas |
|---|---|---|
kimi-k2.5:cloud |
Free (con límites) | Requiere cuenta Ollama |
glm-5:cloud |
Free (con límites) | Requiere cuenta Ollama |
minimax-m2.7:cloud |
Free (con límites) | Requiere cuenta Ollama |
qwen3.5:cloud |
Free (con límites) | Requiere cuenta Ollama |
glm-4.7-flash |
100% gratis e ilimitado | Local, corre en tu máquina |
qwen3.5 |
100% gratis e ilimitado | Local, corre en tu máquina |
- Los prompts y respuestas nunca se loguean ni se usan para entrenar.
- Ollama exige a sus partners (NVIDIA Cloud Providers) políticas de "no logging, no training, zero data retention".
- Hosting principal en EE. UU., con redirección a Europa y Singapur según capacidad.
Fuente: https://ollama.com/pricing
Una vez instalado Ollama actualizado:
ollama launch claude --model qwen3.5
ollama launch claude --model kimi-k2.5:cloud
ollama launch claude --model glm-5:cloud
ollama launch claude --model minimax-m2.7:cloud
ollama launch claude --model qwen3.5:cloud
ollama launch claude --model glm-4.7-flashEso instala/lanza Claude Code con el modelo en un solo comando.
Si no puedes actualizar o prefieres control total:
Paso 1: Arranca el servidor de Ollama en una terminal:
ollama servePaso 2: En otra terminal, descarga el modelo local:
ollama pull qwen3.5Paso 3: Lanza Claude Code apuntando a Ollama:
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434
claude --model qwen3.5Todo en una sola línea:
ANTHROPIC_AUTH_TOKEN=ollama \
ANTHROPIC_BASE_URL=http://localhost:11434 \
ANTHROPIC_API_KEY="" \
claude --model qwen3.5ollama launch claude --model kimi-k2.5:cloud --yes -- -p "¿cómo funciona este repo?"--yes: auto-descarga el modelo y salta los selectores.- Requiere
--model. - Todo lo que va después de
--se pasa directo a Claude Code.
macOS / Linux:
curl -fsSL https://claude.ai/install.sh | bashWindows (PowerShell):
irm https://claude.ai/install.ps1 | iexClaude Code necesita una ventana de contexto grande. Ollama recomienda mínimo 64k tokens. Si usas un modelo local hay que ajustar el contexto o el agente se quedará corto al leer archivos medianos.
Referencia: https://docs.ollama.com/context-length
Dentro de Claude Code puedes correr prompts en bucle cada cierto intervalo:
/loop <intervalo> <prompt o /comando>
Ejemplos:
/loop 30m Revisa mis PRs abiertos y resume su estado
/loop 1h Investiga las últimas noticias de IA y resúmelas
/loop 15m Busca nuevos issues en GitHub y clasifícalos por prioridad
- Actualiza Ollama a la última versión (
brew upgrade ollamao reinstala). - Empieza con un modelo cloud (no consume tu RAM local):
ollama launch claude --model kimi-k2.5:cloud- Si quieres ir 100% local (sin internet, sin cuenta) y tienes mínimo 16 GB de RAM libre:
ollama launch claude --model qwen3.5Error: unknown command "launch" for "ollama"
Tu Ollama está desactualizado. Actualiza con brew upgrade ollama o reinstala desde la web.
Claude Code no conecta con Ollama
Verifica que el servidor esté corriendo: ollama serve y que las variables ANTHROPIC_BASE_URL=http://localhost:11434 estén exportadas.
El modelo responde muy corto o se corta al leer archivos Aumenta el contexto. Ver https://docs.ollama.com/context-length