大模型04期使用xtuner微调开源大模型--基础版作业 #43

New Issue

11252177484cs · 2024-11-25T16:40:09+08:00

11252177484cs commented

2024-11-25 16:40:09 +08:00

一、作业要求
1.【基础】使用xtuner 内置的yi_6b_qlora_alpaca_enzh_e3进行微调
二、作业过程
1、通过xtuner copy-cfg yi_6b_qlora_alpaca_enzh_e3 将配置文件下载到云服务器/code 目录下
2、查看 yi_6b_qlora_alpaca_enzh_e3.py 文件，下载对应的大模型和两个数据文件。详见附图1

这里有个小问题，通过教材的命令huggingface-cli download 下载大模型经常超时，最大的模型文件有10G大小，后来通过modelscope下载成功，速度比较快。

3、修改配置文件，主要是模型和数据目录要修改，并且要将量化配置注释掉，然后通过notebook 进行微调训练，成功。命令为：NPROC_PER_NODE=4 xtuner train /code/yi_6b_qlora_alpaca_enzh_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3。这里关键是量化配置注释时要注意，原来的 “）,” 不能被注释，否则训练报错。配置文件详见附图2

4、修改run.sh 通过bash run.sh yi_6b_qlora_alpaca_enzh_e3_copy.py 进行验证，也成功。

5、创建微调任务进行微调训练，结果发现失败，老师解答是通过微调训练，HF_HOME 环境变量要设置到/userhome下，与notebook时不同。详见附图3

6、重新修改HF_HOME配置后进行微调训练，成功。4个4 DCU节点，一共跑了约13小时。

三、心得体会
作业过程遇到问题不少，耗时比较多，不过能够让自己真正理解大模型的一些过程和逻辑，还是值得的。

一、作业要求 1.【基础】使用xtuner 内置的yi_6b_qlora_alpaca_enzh_e3进行微调二、作业过程 1、通过xtuner copy-cfg yi_6b_qlora_alpaca_enzh_e3 将配置文件下载到云服务器/code 目录下 2、查看 yi_6b_qlora_alpaca_enzh_e3.py 文件，下载对应的大模型和两个数据文件。详见附图1 <img width="415" alt="image" src="/attachments/4f3067c2-c487-499c-9ad5-6b20ae4f7b0f"> 这里有个小问题，通过教材的命令huggingface-cli download 下载大模型经常超时，最大的模型文件有10G大小，后来通过modelscope下载成功，速度比较快。 3、修改配置文件，主要是模型和数据目录要修改，并且要将量化配置注释掉，然后通过notebook 进行微调训练，成功。命令为：NPROC_PER_NODE=4 xtuner train /code/yi_6b_qlora_alpaca_enzh_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3。这里关键是量化配置注释时要注意，原来的 “）,” 不能被注释，否则训练报错。配置文件详见附图2 <img width="415" alt="image" src="/attachments/a25f7a23-6791-460c-9409-a256c659bf2b"> 4、修改run.sh 通过bash run.sh yi_6b_qlora_alpaca_enzh_e3_copy.py 进行验证，也成功。 5、创建微调任务进行微调训练，结果发现失败，老师解答是通过微调训练，HF_HOME 环境变量要设置到/userhome下，与notebook时不同。详见附图3 <img width="415" alt="image" src="/attachments/3fca6c1d-8816-4899-9196-b3024fe8c0ba"> 6、重新修改HF_HOME配置后进行微调训练，成功。4个4 DCU节点，一共跑了约13小时。 <img width="415" alt="image" src="/attachments/757fc133-41f0-41c1-ada9-a23e7a55d8e4"> <img width="415" alt="image" src="/attachments/07d5ab2f-a340-4ee9-8612-1184fcbd5e1d"> 三、心得体会作业过程遇到问题不少，耗时比较多，不过能够让自己真正理解大模型的一些过程和逻辑，还是值得的。

image.png

1.0 MiB

image.png

1.0 MiB

image.png

1.0 MiB

image.png

1.0 MiB

image.png

1.0 MiB

Sign in to join this conversation.