20240905-机器环境搭建与操作 #18

New Issue

12019701659cs · 2024-09-05T20:32:12+08:00

12019701659cs commented

2024-09-05 20:32:12 +08:00

1. linux 物理机docker环境搭建

安装docker
安装nvidia container toolkit
制作镜像
安装环境
启动环境

运行测试

export HF_ENDPOINT=https://hf-mirror.com

模型部署
多机多卡

2. 在平台上环境运行

算法存储在/code中，数据集存储在/dataset中，用户目录在/userhome中，训练输出请存储在/model中以供后续下载

单卡微调 Qwen1.5-0.5B 模型

 NPROC_PER_NODE=1 xtuner train code/qwen1_5_0_5b_chat_full_alpaca_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3_offload

4卡微调llama-2-7b模型

cd /code/
NPROC_PER_NODE=4 xtuner train llama2_7b_chat_lora_lawyer_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3

### 1. linux 物理机docker环境搭建 1. 安装docker 2. 安装nvidia container toolkit 3. 制作镜像 4. 安装环境 5. 启动环境 6. 运行测试 export HF_ENDPOINT=https://hf-mirror.com 7. 模型部署 8. 多机多卡 ### 2. 在平台上环境运行 1. 算法存储在/code中，数据集存储在/dataset中，用户目录在/userhome中，训练输出请存储在/model中以供后续下载 2. 单卡微调 Qwen1.5-0.5B 模型 ![Untitled.png](/attachments/0c7704f7-b98c-40e7-aa15-4399cf5aeeb0) NPROC_PER_NODE=1 xtuner train code/qwen1_5_0_5b_chat_full_alpaca_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3_offload 3. 4卡微调llama-2-7b模型 ![Untitled1.png](/attachments/a3d95384-60d0-42c5-8b1f-33880911e762) cd /code/ NPROC_PER_NODE=4 xtuner train llama2_7b_chat_lora_lawyer_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3

Untitled.png

76 KiB

Untitled1.png

87 KiB

12019701659cs closed this issue

2024-09-05 20:32:53 +08:00

Sign in to join this conversation.