10-基于vLLM本地模型部署 #201

New Issue

12535224197cs · 2024-10-16T17:27:18+08:00

12535224197cs commented

2024-10-16 17:27:18 +08:00

1. 创建环境

2. 单卡推理

python vllm_standalone.py

3. 基于ray做分布式多卡推理

3.1 启动ray

# 启动ray
HIP_VISIBLE_DEVICES=0,1,2,3 ray start --head --dashboard-host 0.0.0.0 --num-gpus=4
# 查看ray集群状态：
ray status

3.2 分布式推理

python vllm_distributed_ray.py

3.3 使用ray查看任务

4. 启动多卡推理

# 部署多卡服务
python -m vllm.entrypoints.openai.api_server --model /dataset/Qwen1.5-0.5B-Chat/ --tensor-parallel-size 4 --dtype float16
# 使用OpenAI python SDK调用vllm部署的模型
python vllm_openai_call.py

5.部署Qwen2-7B-Instruct

# 使用如下命令可以部署一个Qwen2-7B-Instruct模型，并模拟openai api对外提供服务
python -m vllm.entrypoints.openai.api_server \
  --model /dataset/Qwen2-7B-Instruct/ \
  --served-model-name Qwen2-7B-Instruct \
  --tensor-parallel-size 4 \
  --dtype float16
# tools使用
python /code/ex04_api_call_tools.py

## 1. 创建环境 ![33.jpg](https://cdn.nlark.com/yuque/0/2024/png/44993204/1729070114166-40933ce8-f5bf-4db8-8614-b3624e339f5c.png?x-oss-process=image%2Fresize%2Cw_1500%2Climit_0) ## 2. 单卡推理 `python vllm_standalone.py` ![33.jpg](https://cdn.nlark.com/yuque/0/2024/png/44993204/1729068995042-8c7c9650-1eb5-4e2d-8eeb-a2ea5f00e978.png?x-oss-process=image%2Fresize%2Cw_1500%2Climit_0) ## 3. 基于ray做分布式多卡推理 ### 3.1 启动ray ``` # 启动ray HIP_VISIBLE_DEVICES=0,1,2,3 ray start --head --dashboard-host 0.0.0.0 --num-gpus=4 # 查看ray集群状态： ray status ``` ![33.jpg](https://cdn.nlark.com/yuque/0/2024/png/44993204/1729069027907-effab694-0e71-4737-82cb-1f090ce431e5.png?x-oss-process=image%2Fresize%2Cw_1500%2Climit_0) ### 3.2 分布式推理 python vllm_distributed_ray.py <video src="/attachments/d2245e6b-8ec7-40ed-82ec-f52796f179ce" title="2基于ray做分布式推理.mov" controls></video> ### 3.3 使用ray查看任务 ![33.jpg](https://cdn.nlark.com/yuque/0/2024/png/44993204/1729069257015-a9bf93f1-351f-4c5f-8caa-0d3c1055cc78.png?x-oss-process=image%2Fresize%2Cw_1500%2Climit_0) ![33.jpg](https://cdn.nlark.com/yuque/0/2024/png/44993204/1729069269097-2fedb3d0-7a6b-417f-84d3-4d0f0cbdb661.png?x-oss-process=image%2Fresize%2Cw_1500%2Climit_0) ## 4. 启动多卡推理 ``` # 部署多卡服务 python -m vllm.entrypoints.openai.api_server --model /dataset/Qwen1.5-0.5B-Chat/ --tensor-parallel-size 4 --dtype float16 # 使用OpenAI python SDK调用vllm部署的模型 python vllm_openai_call.py ``` ![33.jpg](https://cdn.nlark.com/yuque/0/2024/png/44993204/1729069437840-31c8b415-edd0-4d32-9017-b94a7626b482.png?x-oss-process=image%2Fresize%2Cw_1500%2Climit_0) ## 5.部署Qwen2-7B-Instruct ``` # 使用如下命令可以部署一个Qwen2-7B-Instruct模型，并模拟openai api对外提供服务 python -m vllm.entrypoints.openai.api_server \ --model /dataset/Qwen2-7B-Instruct/ \ --served-model-name Qwen2-7B-Instruct \ --tensor-parallel-size 4 \ --dtype float16 # tools使用 python /code/ex04_api_call_tools.py ``` <video src="/attachments/5471b07b-d23b-4f58-b09c-453f48abbe1a" title="5.mov" controls></video>

5.mov

37 MiB

2基于ray做分布式推理.mov

108 MiB

Sign in to join this conversation.