ollama并发问题 #166

New Issue

waylq · 2024-10-09T11:03:36+08:00

waylq commented

2024-10-09 11:03:36 +08:00

gpu：A100 80g 单卡使用，参数 OLLAMA_NUM_PARALLEL=100 未生效，希望老师给些建议关于模型并发请求问题。

docker run -d --runtime nvidia --gpus="device=3" -e OLLAMA_KEEP_ALIVE=24h -e OLLAMA_NUM_PARALLEL=100 -v /data1/LLM_model/ollama1:/root/.ollama -p 9201:11434 --name ollama9201 ollama/ollama:latest

gpu：A100 80g 单卡使用，参数 OLLAMA_NUM_PARALLEL=100 未生效，希望老师给些建议关于模型并发请求问题。 docker run -d --runtime nvidia --gpus="device=3" -e OLLAMA_KEEP_ALIVE=24h -e OLLAMA_NUM_PARALLEL=100 -v /data1/LLM_model/ollama1:/root/.ollama -p 9201:11434 --name ollama9201 ollama/ollama:latest

21970855250cs commented

2024-10-09 22:00:32 +08:00

我这边简单测试了下，用的两块3090，看起来并发是没啥问题的
我的docker 镜像id：1577d5e882da

docker run -it --gpus=all -e OLLAMA_SCHED_SPREAD=10 -e OLLAMA_KEEP_ALIVE=24h -e OLLAMA_NUM_PARALLEL=10 -e OLLAMA_MAX_LOADED_MODELS=3 -e OLLAMA_HOST=0.0.0.0:11434 -v /usr/share/ollama/.ollama:/root/.ollama -p 11434:11434 ollama/ollama:latest

我这边简单测试了下，用的两块3090，看起来并发是没啥问题的我的docker 镜像id：1577d5e882da ``` docker run -it --gpus=all -e OLLAMA_SCHED_SPREAD=10 -e OLLAMA_KEEP_ALIVE=24h -e OLLAMA_NUM_PARALLEL=10 -e OLLAMA_MAX_LOADED_MODELS=3 -e OLLAMA_HOST=0.0.0.0:11434 -v /usr/share/ollama/.ollama:/root/.ollama -p 11434:11434 ollama/ollama:latest ```

waylq commented

2024-10-10 14:13:38 +08:00

我通过这个脚本压测结果如上图。 138token/s 是否正常。

我通过这个脚本压测 ![image](/attachments/c7dfe4db-a331-455a-a704-642dcc18efd9) 结果如上图。 138token/s 是否正常。

bench.py.txt

4.1 KiB

image.png

62 KiB

21970855250cs commented

2024-10-12 11:17:12 +08:00

这个得看用的模型大小和使用的GPU型号了。
138token/s基本能够正常使用了，算是比较快的。
如果只是看并发是不是生效，可以打开两个终端，同时推理同一个模型，看看是不是可以同时输出内容。

这个得看用的模型大小和使用的GPU型号了。 138token/s基本能够正常使用了，算是比较快的。如果只是看并发是不是生效，可以打开两个终端，同时推理同一个模型，看看是不是可以同时输出内容。