iakashpaul/sglang.md

Created September 11, 2024 18:40

Star (0) You must be signed in to star a gist
Fork (0) You must be signed in to fork a gist

Learn more about clone URLs
Clone this repository at <script src="https://gist.github.com/iakashpaul/86a3fe9abc726661bebaca927d9f5794.js"></script>
Save iakashpaul/86a3fe9abc726661bebaca927d9f5794 to your computer and use it in GitHub Desktop.

sglang_launch_server

Raw

Run SGLang with model weights being stored on persistent storage on /data at FP8 Quantization level, roughly 128tok/s for BS_1

HF_HOME=/data python3 -m sglang.launch_server --model NousResearch/Meta-Llama-3.1-8B-Instruct --host 0.0.0.0 --random-seed 1337 --dtype bfloat16 --quantization fp8