EvilFreelancer · March 18, 2025 10:32
diff --git a/docker-compose.yml b/docker-compose.yml
 x-shared-logs: &shared-logs
  logging:
    driver: "json-file"
    options:
      max-size: "10k"

 services:

  ollama:
    image: ollama/ollama:0.6.0
    restart: unless-stopped
    volumes:
      - ./ollama_data:/root
    environment:
      OLLAMA_KEEP_ALIVE: 60m
      OLLAMA_FLASH_ATTENTION: 1
      OLLAMA_MAX_LOADED_MODELS: 2
      OLLAMA_MAX_QUEUE: 8
      OLLAMA_NUM_PARALLEL: 10
      OLLAMA_GPU_OVERHEAD: 0
      OLLAMA_SCHED_SPREAD: 1
      OLLAMA_CONTEXT_LENGTH: 16000
    ports:
      - "11434:11434"
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [ gpu ]
    <<: *shared-logs

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    restart: unless-stopped
    ports:
      - "8080:8080"
    volumes:
      - ./open-webui_data:/app/backend/data:rw
    environment:
      # WEBUI_AUTH: false
      OLLAMA_BASE_URL: http://ollama:11434
    <<: *shared-logs
	x-shared-logs: &shared-logs
	logging:
	driver: "json-file"
	options:
	max-size: "10k"

	services:

	ollama:
	image: ollama/ollama:0.6.0
	restart: unless-stopped
	volumes:
	- ./ollama_data:/root
	environment:
	OLLAMA_KEEP_ALIVE: 60m
	OLLAMA_FLASH_ATTENTION: 1
	OLLAMA_MAX_LOADED_MODELS: 2
	OLLAMA_MAX_QUEUE: 8
	OLLAMA_NUM_PARALLEL: 10
	OLLAMA_GPU_OVERHEAD: 0
	OLLAMA_SCHED_SPREAD: 1
	OLLAMA_CONTEXT_LENGTH: 16000
	ports:
	- "11434:11434"
	deploy:
	resources:
	reservations:
	devices:
	- driver: nvidia
	count: all
	capabilities: [ gpu ]
	<<: *shared-logs

	open-webui:
	image: ghcr.io/open-webui/open-webui:main
	restart: unless-stopped
	ports:
	- "8080:8080"
	volumes:
	- ./open-webui_data:/app/backend/data:rw
	environment:
	# WEBUI_AUTH: false
	OLLAMA_BASE_URL: http://ollama:11434
	<<: *shared-logs