训练管理模块创建训练任务(三) #104

Open
opened 2024-09-19 14:46:43 +08:00 by 12390900721cs · 1 comment

如果只想试试训练,不想做更多其他操作的话,可以在训练管理模块直接对模型进行训练。

拷贝算法

这里还是使用的llm_fintune_04算法。

选择镜像和数据集

这里使用平台人员写好的ai_hpc3镜像,数据集还是使用最经典的huggingface-cache数据集。

创建分布式任务并添加任务

创建分布式任务后,对任务进行添加。

这里需要一个主任务,命名为master。

运行命令为bash distributed_finetune_job.sh qwen1_5_1_8b_qlora_alpaca_e3_copy.py 3,这是平台人员已经做好的.sh文件,包括有许多运行需要的步骤,这里暂时不需要弄懂,拿来直接跑就行。

创建三个任务也就是三机十二卡,详情如下所示:

开始运行

运行到这个程度说明成功。也可以等他跑完出现绿色的运行成功提示。

如果只想试试训练,不想做更多其他操作的话,可以在训练管理模块直接对模型进行训练。 ## 拷贝算法 这里还是使用的llm_fintune_04算法。 ![](https://cdn.nlark.com/yuque/0/2024/png/48516026/1726727698689-1a7c0f79-ed2f-4df7-8e32-d48108985c14.png) ## 选择镜像和数据集 这里使用平台人员写好的ai_hpc3镜像,数据集还是使用最经典的huggingface-cache数据集。 ![](https://cdn.nlark.com/yuque/0/2024/png/48516026/1726728138585-0cf52ee1-682d-4c57-9996-7360f2b0e61a.png) ## 创建分布式任务并添加任务 创建分布式任务后,对任务进行添加。 这里需要一个主任务,命名为master。 ![](https://cdn.nlark.com/yuque/0/2024/png/48516026/1726727722700-5c0fbc39-cadd-42f2-aec8-46b240a46acf.png) 运行命令为bash distributed_finetune_job.sh qwen1_5_1_8b_qlora_alpaca_e3_copy.py 3,这是平台人员已经做好的.sh文件,包括有许多运行需要的步骤,这里暂时不需要弄懂,拿来直接跑就行。 ![](https://cdn.nlark.com/yuque/0/2024/png/48516026/1726727730014-d8277428-8592-4ee9-83e3-2eeb411b2057.png)![](https://cdn.nlark.com/yuque/0/2024/png/48516026/1726727725439-4f0f7ae4-0f27-44e4-bfce-f08a4dd03fa5.png) 创建三个任务也就是三机十二卡,详情如下所示: ![](https://cdn.nlark.com/yuque/0/2024/png/48516026/1726727760015-34100af4-05ce-4c0a-900e-639571d735c7.png) ## 开始运行 ![](https://cdn.nlark.com/yuque/0/2024/png/48516026/1726727764396-98b43d11-88af-4e0d-bfcf-c1447a407e67.png) ![](https://cdn.nlark.com/yuque/0/2024/png/48516026/1726727768258-31371f35-3268-4cf7-a27f-3a3c4a7a46a3.png) 运行到这个程度说明成功。也可以等他跑完出现绿色的运行成功提示。

Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#104
No description provided.