Skip to content

Instantly share code, notes, and snippets.

@mateolafalce
mateolafalce / chunking.md
Last active May 19, 2026 23:47
Chunking

Actividad sobre chunking

Definimos preliminarmente un maximo de chunking de 200 tokens

Bajo el siguiente supuesto:

  • Se reserva al menos 3k de ventana de contexto para el retrieval del rag
  • Por lo tanto se espera como minimo 16 retrievals

@mateolafalce
mateolafalce / modelos_lines_2026.md
Created May 15, 2026 22:14
Seleccion de modelos de IA para correr localmente usando el motor de inferencia Ollama en la placa RTX 3070 (8 GB VRAM)

Modelos 2026 (Ollama)

  • Selección de modelos de IA para correr localmente en una RTX 3070 (8 GB de VRAM).
  • Se verificó que todos los modelos listados a continuación pueden ejecutarse en nuestro hardware.
  • La carpeta /modelos contiene los archivos docker-compose correspondientes a cada modelo para su despliegue.
  • El motor de inferencia utilizado es Ollama.

Listado

  1. Qwen3.5-9B
@mateolafalce
mateolafalce / modelos_lines_2026.md
Last active May 15, 2026 22:12
Seleccion de modelos de IA para correr localmente usando el motor de inferencia VLLM en la placa RTX 3070 (8 GB VRAM)

Modelos 2026 (VLLM)

  • Selección de modelos de IA para correr localmente en una RTX 3070 (8 GB de VRAM).
  • Se verificó que todos los modelos listados a continuación pueden ejecutarse en nuestro hardware.
  • La carpeta /modelos contiene los archivos docker-compose correspondientes a cada modelo para su despliegue.
  • El motor de inferencia utilizado es vllm.

Listado

  1. Qwen3.5-9B