大模型04期使用xtuner微调开源大模型--基础版作业 #43

Open
opened 2024-11-25 16:40:09 +08:00 by 11252177484cs · 0 comments

一、作业要求
1.【基础】使用xtuner 内置的yi_6b_qlora_alpaca_enzh_e3进行微调
二、作业过程
1、通过xtuner copy-cfg yi_6b_qlora_alpaca_enzh_e3 将配置文件下载到云服务器/code 目录下
2、查看 yi_6b_qlora_alpaca_enzh_e3.py 文件,下载对应的大模型和两个数据文件。详见附图1
image

这里有个小问题,通过教材的命令huggingface-cli download 下载大模型经常超时 ,最大的模型文件有10G大小,后来通过modelscope下载成功,速度比较快。

3、修改配置文件,主要是模型和数据目录要修改,并且要将量化配置注释掉,然后通过notebook 进行微调训练,成功。命令为:NPROC_PER_NODE=4 xtuner train /code/yi_6b_qlora_alpaca_enzh_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3。 这里关键是量化配置注释时要注意,原来的 “),” 不能被注释,否则训练报错。配置文件详见附图2

image

4、修改run.sh 通过bash run.sh yi_6b_qlora_alpaca_enzh_e3_copy.py 进行验证,也成功。

5、创建微调任务进行微调训练,结果发现失败,老师解答是通过微调训练,HF_HOME 环境变量要设置到/userhome下,与notebook时不同。详见附图3
image

6、重新修改HF_HOME配置后进行微调训练,成功。4个4 DCU节点,一共跑了约13小时。
image
image

三、心得体会
作业过程遇到问题不少,耗时比较多,不过能够让自己真正理解大模型的一些过程和逻辑,还是值得的。

一、作业要求 1.【基础】使用xtuner 内置的yi_6b_qlora_alpaca_enzh_e3进行微调 二、作业过程 1、通过xtuner copy-cfg yi_6b_qlora_alpaca_enzh_e3 将配置文件下载到云服务器/code 目录下 2、查看 yi_6b_qlora_alpaca_enzh_e3.py 文件,下载对应的大模型和两个数据文件。详见附图1 <img width="415" alt="image" src="/attachments/4f3067c2-c487-499c-9ad5-6b20ae4f7b0f"> 这里有个小问题,通过教材的命令huggingface-cli download 下载大模型经常超时 ,最大的模型文件有10G大小,后来通过modelscope下载成功,速度比较快。 3、修改配置文件,主要是模型和数据目录要修改,并且要将量化配置注释掉,然后通过notebook 进行微调训练,成功。命令为:NPROC_PER_NODE=4 xtuner train /code/yi_6b_qlora_alpaca_enzh_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3。 这里关键是量化配置注释时要注意,原来的 “),” 不能被注释,否则训练报错。配置文件详见附图2 <img width="415" alt="image" src="/attachments/a25f7a23-6791-460c-9409-a256c659bf2b"> 4、修改run.sh 通过bash run.sh yi_6b_qlora_alpaca_enzh_e3_copy.py 进行验证,也成功。 5、创建微调任务进行微调训练,结果发现失败,老师解答是通过微调训练,HF_HOME 环境变量要设置到/userhome下,与notebook时不同。详见附图3 <img width="415" alt="image" src="/attachments/3fca6c1d-8816-4899-9196-b3024fe8c0ba"> 6、重新修改HF_HOME配置后进行微调训练,成功。4个4 DCU节点,一共跑了约13小时。 <img width="415" alt="image" src="/attachments/757fc133-41f0-41c1-ada9-a23e7a55d8e4"> <img width="415" alt="image" src="/attachments/07d5ab2f-a340-4ee9-8612-1184fcbd5e1d"> 三、心得体会 作业过程遇到问题不少,耗时比较多,不过能够让自己真正理解大模型的一些过程和逻辑,还是值得的。
Sign in to join this conversation.
No Label
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_share#43
No description provided.