关于VLM课程中使用xinference部署本地模型 #303

New Issue

21970855250cs · 2024-10-26T21:51:51+08:00

21970855250cs commented

2024-10-26 21:51:51 +08:00

使用glm-4v 9b模型部署接入fastgpt是可以的，
模型部署需要使用8bit量化模型（大概需要21G显存），否则会出现OOM

使用glm-4v 9b模型部署接入fastgpt是可以的，模型部署需要使用8bit量化模型（大概需要21G显存），否则会出现OOM <img width="1440" alt="image" src="/attachments/5500637e-30be-4d36-ae3f-e7e8fe57e2a1"> <img width="1440" alt="image" src="/attachments/b7d89a2b-de61-4df5-b151-437a49348c2f"> <img width="1440" alt="image" src="/attachments/1fb7a9fc-8219-4b90-9741-385917f22d19">

image.png

241 KiB

image.png

774 KiB

image.png

287 KiB

👍 1

21970855250cs commented

2024-10-27 11:44:30 +08:00

另外关于gradio_gpt4o.py脚本，已经添加了记录历史会话信息的逻辑
修改后可以将历史会话信息记录下来

另外关于gradio_gpt4o.py脚本，已经添加了记录历史会话信息的逻辑修改后可以将历史会话信息记录下来 <img width="1043" alt="image" src="/attachments/b5c79200-54f0-48f5-9a55-c2f174835b87">

image.png