4机16卡训练实验报告 #67
- 首先,先在平台创立四个notebook(因为目标是训练4机16卡的实验)
- 在四个notebook/四台机器中分别都需要设置环境变量
- 用ifconfig来查看节点的IP地址,选中一台机器/服务器节点为主节点。这里我选中的是IP地址为10.244.132.125作为我的主节点
- 然后在四台机器上分别输入四个对应的代码
- 模型训练过程展示
- 等待模型跑完训练后,然后将lora模型转换并合并
- 跑完模型后,在主节点多开几个终端进行模型部署调用。在每个终端里分别输入以下代码
- 结果
1. 首先,先在平台创立四个notebook(因为目标是训练4机16卡的实验)


2. 在四个notebook/四台机器中分别都需要设置环境变量

3. 用ifconfig来查看节点的IP地址,选中一台机器/服务器节点为主节点。这里我选中的是IP地址为10.244.132.125作为我的主节点

4. 然后在四台机器上分别输入四个对应的代码




5. 模型训练过程展示

6. 等待模型跑完训练后,然后将lora模型转换并合并


7. 跑完模型后,在主节点多开几个终端进行模型部署调用。在每个终端里分别输入以下代码




8. 结果

Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#67
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?