Cdaprod · June 15, 2025 19:38
diff --git a/run-llama-cuda-server.ps1 b/run-llama-cuda-server.ps1
 docker run --gpus all --restart unless-stopped -d `
  -v "B:\Models:/models" `
  -p 8000:8000 `
  ghcr.io/ggml-org/llama.cpp:server-cuda `
  -m /models/llama-2-7b-chat.Q4_K_M.gguf `
  --port 8000 --host 0.0.0.0 -n 512 --n-gpu-layers 35
	docker run --gpus all --restart unless-stopped -d `
	-v "B:\Models:/models" `
	-p 8000:8000 `
	ghcr.io/ggml-org/llama.cpp:server-cuda `
	-m /models/llama-2-7b-chat.Q4_K_M.gguf `
	--port 8000 --host 0.0.0.0 -n 512 --n-gpu-layers 35