Skip to content

Instantly share code, notes, and snippets.

@Klerith
Last active May 1, 2026 08:55
Show Gist options
  • Select an option

  • Save Klerith/afaf750d5172a648fe262cd12b4cd7d8 to your computer and use it in GitHub Desktop.

Select an option

Save Klerith/afaf750d5172a648fe262cd12b4cd7d8 to your computer and use it in GitHub Desktop.
ClaudeCode con modelos locales

Ollama + Claude Code

Guía para ejecutar Claude Code usando modelos de Ollama (local o cloud) enfocado a codificación.

Requisito previo: versión de Ollama

El comando ollama launch es nuevo. Si tienes una versión antigua (por ejemplo 0.11.x), verás:

Error: unknown command "launch" for "ollama"

Verifica tu versión:

ollama --version

O reinstala desde https://ollama.com/download

Los modelos :cloud (kimi-k2.5:cloud, glm-5:cloud, etc.) también requieren la versión nueva. Con versiones antiguas solo puedes usar modelos locales.

Modelos recomendados para codificar

De mejor a más ligero:

Modelo Tipo Uso ideal
kimi-k2.5:cloud Cloud El más potente para código, comparable a Claude
glm-5:cloud Cloud Excelente alternativa, muy buen razonamiento
minimax-m2.7:cloud Cloud Buen balance
qwen3.5:cloud Cloud Rápido y sólido para código
glm-4.7-flash Local Ligero, corre en tu máquina
qwen3.5 Local El mejor local para codificar

Los :cloud corren en servidores de Ollama (necesitas cuenta, gratis con límites). Los modelos sin sufijo corren 100% local.

Más modelos cloud: https://ollama.com/search?c=cloud

Descargar modelos locales recomendados

Puedes descargar y preparar los modelos locales más recomendados para codificación con estos comandos en tu terminal:

ollama pull glm-4.7-flash
ollama pull qwen3.5

Esto descargará los modelos y quedarán listos para usarse desde Claude Code o desde la línea de comandos de Ollama.

Si necesitas liberar espacio después, puedes eliminar modelos con:

ollama rm NOMBRE_DEL_MODELO

¿Requieren suscripción los modelos :cloud?

No, pero sí necesitas una cuenta gratuita en Ollama. El plan Free permite usar los modelos cloud con límites.

Planes de Ollama Cloud

Plan Precio Uso cloud Modelos concurrentes
Free $0 "Uso ligero" 1
Pro $20/mes ($200/año) 50× más que Free 3
Max $100/mes 5× más que Pro 10

El uso se mide por tiempo de GPU (no por tokens). Los límites se resetean:

  • Sesión: cada 5 horas
  • Semanal: cada 7 días

Qué incluye el plan Free (según Ollama)

  • Chatear con modelos
  • Evaluar modelos grandes
  • Coding y asistentes con modelos pequeños ← aquí entra Claude Code

Para uso intensivo día a día (agentes continuos, sesiones largas) recomiendan Pro.

¿Qué modelos son gratis sin límite?

Modelo ¿Gratis? Notas
kimi-k2.5:cloud Free (con límites) Requiere cuenta Ollama
glm-5:cloud Free (con límites) Requiere cuenta Ollama
minimax-m2.7:cloud Free (con límites) Requiere cuenta Ollama
qwen3.5:cloud Free (con límites) Requiere cuenta Ollama
glm-4.7-flash 100% gratis e ilimitado Local, corre en tu máquina
qwen3.5 100% gratis e ilimitado Local, corre en tu máquina

Privacidad

  • Los prompts y respuestas nunca se loguean ni se usan para entrenar.
  • Ollama exige a sus partners (NVIDIA Cloud Providers) políticas de "no logging, no training, zero data retention".
  • Hosting principal en EE. UU., con redirección a Europa y Singapur según capacidad.

Fuente: https://ollama.com/pricing

Setup rápido (recomendado)

Una vez instalado Ollama actualizado:

ollama launch claude --model qwen3.5

ollama launch claude --model kimi-k2.5:cloud
ollama launch claude --model glm-5:cloud
ollama launch claude --model minimax-m2.7:cloud
ollama launch claude --model qwen3.5:cloud
ollama launch claude --model glm-4.7-flash

Eso instala/lanza Claude Code con el modelo en un solo comando.

Setup manual (funciona con cualquier versión de Ollama)

Si no puedes actualizar o prefieres control total:

Paso 1: Arranca el servidor de Ollama en una terminal:

ollama serve

Paso 2: En otra terminal, descarga el modelo local:

ollama pull qwen3.5

Paso 3: Lanza Claude Code apuntando a Ollama:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
export ANTHROPIC_BASE_URL=http://localhost:11434

claude --model qwen3.5

Todo en una sola línea:

ANTHROPIC_AUTH_TOKEN=ollama \
ANTHROPIC_BASE_URL=http://localhost:11434 \
ANTHROPIC_API_KEY="" \
claude --model qwen3.5

Modo headless (scripts / CI / Docker)

ollama launch claude --model kimi-k2.5:cloud --yes -- -p "¿cómo funciona este repo?"
  • --yes: auto-descarga el modelo y salta los selectores.
  • Requiere --model.
  • Todo lo que va después de -- se pasa directo a Claude Code.

Instalación de Claude Code

macOS / Linux:

curl -fsSL https://claude.ai/install.sh | bash

Windows (PowerShell):

irm https://claude.ai/install.ps1 | iex

Consideración crítica: contexto

Claude Code necesita una ventana de contexto grande. Ollama recomienda mínimo 64k tokens. Si usas un modelo local hay que ajustar el contexto o el agente se quedará corto al leer archivos medianos.

Referencia: https://docs.ollama.com/context-length

Tareas programadas con /loop

Dentro de Claude Code puedes correr prompts en bucle cada cierto intervalo:

/loop <intervalo> <prompt o /comando>

Ejemplos:

/loop 30m Revisa mis PRs abiertos y resume su estado
/loop 1h  Investiga las últimas noticias de IA y resúmelas
/loop 15m Busca nuevos issues en GitHub y clasifícalos por prioridad

Recomendación para el curso

  1. Actualiza Ollama a la última versión (brew upgrade ollama o reinstala).
  2. Empieza con un modelo cloud (no consume tu RAM local):
ollama launch claude --model kimi-k2.5:cloud
  1. Si quieres ir 100% local (sin internet, sin cuenta) y tienes mínimo 16 GB de RAM libre:
ollama launch claude --model qwen3.5

Troubleshooting

Error: unknown command "launch" for "ollama" Tu Ollama está desactualizado. Actualiza con brew upgrade ollama o reinstala desde la web.

Claude Code no conecta con Ollama Verifica que el servidor esté corriendo: ollama serve y que las variables ANTHROPIC_BASE_URL=http://localhost:11434 estén exportadas.

El modelo responde muy corto o se corta al leer archivos Aumenta el contexto. Ver https://docs.ollama.com/context-length

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment