训练管理模块创建训练任务(三) #104
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#104
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
如果只想试试训练,不想做更多其他操作的话,可以在训练管理模块直接对模型进行训练。
拷贝算法
这里还是使用的llm_fintune_04算法。
选择镜像和数据集
这里使用平台人员写好的ai_hpc3镜像,数据集还是使用最经典的huggingface-cache数据集。
创建分布式任务并添加任务
创建分布式任务后,对任务进行添加。
这里需要一个主任务,命名为master。
运行命令为bash distributed_finetune_job.sh qwen1_5_1_8b_qlora_alpaca_e3_copy.py 3,这是平台人员已经做好的.sh文件,包括有许多运行需要的步骤,这里暂时不需要弄懂,拿来直接跑就行。
创建三个任务也就是三机十二卡,详情如下所示:
开始运行
运行到这个程度说明成功。也可以等他跑完出现绿色的运行成功提示。
赞