ollama并发问题 #166

Open
opened 2024-10-09 11:03:36 +08:00 by waylq · 3 comments

gpu:A100 80g 单卡使用 ,参数 OLLAMA_NUM_PARALLEL=100 未生效,希望老师给些建议 关于模型并发请求问题。

docker run -d --runtime nvidia --gpus="device=3" -e OLLAMA_KEEP_ALIVE=24h -e OLLAMA_NUM_PARALLEL=100 -v /data1/LLM_model/ollama1:/root/.ollama -p 9201:11434 --name ollama9201 ollama/ollama:latest

gpu:A100 80g 单卡使用 ,参数 OLLAMA_NUM_PARALLEL=100 未生效,希望老师给些建议 关于模型并发请求问题。 docker run -d --runtime nvidia --gpus="device=3" -e OLLAMA_KEEP_ALIVE=24h -e OLLAMA_NUM_PARALLEL=100 -v /data1/LLM_model/ollama1:/root/.ollama -p 9201:11434 --name ollama9201 ollama/ollama:latest

我这边简单测试了下,用的两块3090,看起来并发是没啥问题的
我的docker 镜像id:1577d5e882da

docker run -it --gpus=all -e OLLAMA_SCHED_SPREAD=10 -e OLLAMA_KEEP_ALIVE=24h -e OLLAMA_NUM_PARALLEL=10 -e OLLAMA_MAX_LOADED_MODELS=3 -e OLLAMA_HOST=0.0.0.0:11434 -v /usr/share/ollama/.ollama:/root/.ollama -p 11434:11434 ollama/ollama:latest
我这边简单测试了下,用的两块3090,看起来并发是没啥问题的 我的docker 镜像id:1577d5e882da ``` docker run -it --gpus=all -e OLLAMA_SCHED_SPREAD=10 -e OLLAMA_KEEP_ALIVE=24h -e OLLAMA_NUM_PARALLEL=10 -e OLLAMA_MAX_LOADED_MODELS=3 -e OLLAMA_HOST=0.0.0.0:11434 -v /usr/share/ollama/.ollama:/root/.ollama -p 11434:11434 ollama/ollama:latest ```
Author

我通过这个脚本压测 image 结果 如上图。 138token/s 是否正常。

我通过这个脚本压测 ![image](/attachments/c7dfe4db-a331-455a-a704-642dcc18efd9) 结果 如上图。 138token/s 是否正常。

这个得看用的模型大小和使用的GPU型号了。
138token/s基本能够正常使用了,算是比较快的。
如果只是看并发是不是生效,可以打开两个终端,同时推理同一个模型,看看是不是可以同时输出内容。

这个得看用的模型大小和使用的GPU型号了。 138token/s基本能够正常使用了,算是比较快的。 如果只是看并发是不是生效,可以打开两个终端,同时推理同一个模型,看看是不是可以同时输出内容。
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#166
No description provided.