【求助帖】Xtuner训练遇到的问题21536073571cs #135

Open
opened 2024-09-27 12:24:06 +08:00 by 21536073571cs · 2 comments

跟着老师的课想要复盘一下Xtuner的课里的练习:

我的操作步骤如下:

  1. 启动一个训练任务,任务分为两个task0 和 task 1.
    /Users/louisunec/Desktop/Screenshot 2024-09-27 at 2.06.55 pm.png

  2. 按照课件准备环境
    /Users/louisunec/Desktop/Screenshot 2024-09-27 at 2.10.32 pm.png

  3. 然后按照启动多机多卡训练出现了报错
    说是连接不了网
    /Users/louisunec/Desktop/Screenshot 2024-09-27 at 2.20.00 pm.png
    图是我重新运营了后的报错

请老师帮我解决这个问题?

跟着老师的课想要复盘一下Xtuner的课里的练习: 我的操作步骤如下: 1. 启动一个训练任务,任务分为两个task0 和 task 1. /Users/louisunec/Desktop/Screenshot 2024-09-27 at 2.06.55 pm.png 2. 按照课件准备环境 /Users/louisunec/Desktop/Screenshot 2024-09-27 at 2.10.32 pm.png 3. 然后按照启动多机多卡训练出现了报错 说是连接不了网 /Users/louisunec/Desktop/Screenshot 2024-09-27 at 2.20.00 pm.png 图是我重新运营了后的报错 请老师帮我解决这个问题?
Author

Screenshot 2024-09-27 at 2.20.00 pm.png

![Screenshot 2024-09-27 at 2.20.00 pm.png](/attachments/e7683766-ab13-482f-afe3-877b5f939e90)

这里报错显示的是两个notebook的进程建立通信超时了,大概率是命令写错了。
可以把两个notebook中的执行命令都发一下吗?

或者检查下这几个流程,这里以task0作为master举例:

  1. task0是否打开终端,执行了export那些环境设置
  2. task0的IP地址有没有查看(ifconfig命令来查看),确认下是10.244.199.211吗(截图里的ADDR)
  3. task0和task1都申请了4卡机器吗?可以使用命令rocm-smi确认下卡的数量是否是4
  4. task1上是否打开终端,执行了export那些环境设置?
  5. task1上是否执行了xtuner运行命令?并且正确设置了NODE_RANK=1?
这里报错显示的是两个notebook的进程建立通信超时了,大概率是命令写错了。 可以把两个notebook中的执行命令都发一下吗? 或者检查下这几个流程,这里以task0作为master举例: 1. task0是否打开终端,执行了export那些环境设置 2. task0的IP地址有没有查看(ifconfig命令来查看),确认下是10.244.199.211吗(截图里的ADDR) 3. task0和task1都申请了4卡机器吗?可以使用命令rocm-smi确认下卡的数量是否是4 4. task1上是否打开终端,执行了export那些环境设置? 5. task1上是否执行了xtuner运行命令?并且正确设置了NODE_RANK=1?
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#135
No description provided.