超算平台网卡infiniband功能不可用 #351

Open
opened 2024-11-05 18:27:42 +08:00 by testworld · 6 comments

http://218.76.8.34:8090/hswai/#/
1、如下输出是不是说服务器上有4块infiniband网卡,但是这些网卡的infiniband功能都有问题,不能用,用来微调走的是IP网络吧? 如何能启用infiniband功能?
2、这个网卡同时有ip和infiniband功能,如何在训练的时候指定用infiniband功能?
root@r3c417e532cf48f0a8e5ac069e071215-task0-0:/# ibv_devices
device node GUID
------ ----------------
mlx5_0 86e6e8611f044dad
mlx5_1 86e6e8611f044daf
mlx5_2 86e6e8611f044db3
mlx5_3 86e6e8611f044db1
root@r3c417e532cf48f0a8e5ac069e071215-task0-0:/# ibv_devinfo
Failed to open device
Failed to open device
Failed to open device
Failed to open device

http://218.76.8.34:8090/hswai/#/ 1、如下输出是不是说服务器上有4块infiniband网卡,但是这些网卡的infiniband功能都有问题,不能用,用来微调走的是IP网络吧? 如何能启用infiniband功能? 2、这个网卡同时有ip和infiniband功能,如何在训练的时候指定用infiniband功能? root@r3c417e532cf48f0a8e5ac069e071215-task0-0:/# ibv_devices device node GUID ------ ---------------- mlx5_0 86e6e8611f044dad mlx5_1 86e6e8611f044daf mlx5_2 86e6e8611f044db3 mlx5_3 86e6e8611f044db1 root@r3c417e532cf48f0a8e5ac069e071215-task0-0:/# ibv_devinfo Failed to open device Failed to open device Failed to open device Failed to open device
testworld changed title from 超算平台infiniband网卡不可用 to 超算平台网卡infiniband功能不可用 2024-11-05 18:29:51 +08:00

当前内部使用的是基于ibdevice封装的overlay技术保证集群训练网络通信,并不会直接提供ibdevice设备能力给pod直接使用.
请问您是在上哪一节课用到的集群训练技术?请确保使用的容器与老师提供的容器一致。

当前内部使用的是基于ibdevice封装的overlay技术保证集群训练网络通信,并不会直接提供ibdevice设备能力给pod直接使用. 请问您是在上哪一节课用到的集群训练技术?请确保使用的容器与老师提供的容器一致。
Author

如何理解“不会直接提供ibdevice设备能力给pod直接使用”,在我的机器里看不到ib设备么?看不到的话,怎么调用?7.27云平台基于IB的多机多卡训练微调+两个实战-基德老师讲的,怎么基于ib网络做训练?
另外,所有用到超算平台的实验,也要调用ib网络的啊。

如何理解“不会直接提供ibdevice设备能力给pod直接使用”,在我的机器里看不到ib设备么?看不到的话,怎么调用?7.27云平台基于IB的多机多卡训练微调+两个实战-基德老师讲的,怎么基于ib网络做训练? 另外,所有用到超算平台的实验,也要调用ib网络的啊。

如何理解“不会直接提供ibdevice设备能力给pod直接使用”,在我的机器里看不到ib设备么?看不到的话,怎么调用?7.27云平台基于IB的多机多卡训练微调+两个实战-基德老师讲的,怎么基于ib网络做训练?
另外,所有用到超算平台的实验,也要调用ib网络的啊。

用户不需要关心IB设备,直接使用IP即可,IP over InfiniBand (IPoIB)可参考英伟达说明:https://docs.nvidia.com/networking/display/mlnxofedv23070512/ip+over+infiniband+(ipoib)

> 如何理解“不会直接提供ibdevice设备能力给pod直接使用”,在我的机器里看不到ib设备么?看不到的话,怎么调用?7.27云平台基于IB的多机多卡训练微调+两个实战-基德老师讲的,怎么基于ib网络做训练? > 另外,所有用到超算平台的实验,也要调用ib网络的啊。 用户不需要关心IB设备,直接使用IP即可,IP over InfiniBand (IPoIB)可参考英伟达说明:https://docs.nvidia.com/networking/display/mlnxofedv23070512/ip+over+infiniband+(ipoib)

如何理解“不会直接提供ibdevice设备能力给pod直接使用”,在我的机器里看不到ib设备么?看不到的话,怎么调用?7.27云平台基于IB的多机多卡训练微调+两个实战-基德老师讲的,怎么基于ib网络做训练?
另外,所有用到超算平台的实验,也要调用ib网络的啊。

image

也可查看这篇文章,加深对IB网卡的理解:https://docs.redhat.com/zh_hans/documentation/red_hat_enterprise_linux/8/html/configuring_infiniband_and_rdma_networks/configuring-ipoib_configuring-infiniband-and-rdma-networks#configuring-ipoib_configuring-infiniband-and-rdma-networks

大家可能对IB有所误解,以为使用IB传输,必须使用独特的协议,其实现在大部分场景都是做一个 IP 网络模拟层,这样允许现有未经修改的应用程序通过 InfiniBand 网络传输数据。

> 如何理解“不会直接提供ibdevice设备能力给pod直接使用”,在我的机器里看不到ib设备么?看不到的话,怎么调用?7.27云平台基于IB的多机多卡训练微调+两个实战-基德老师讲的,怎么基于ib网络做训练? > 另外,所有用到超算平台的实验,也要调用ib网络的啊。 <img width="685" alt="image" src="/attachments/79ce53c2-a7e9-42f2-a649-a12a3322f0a7"> 也可查看这篇文章,加深对IB网卡的理解:https://docs.redhat.com/zh_hans/documentation/red_hat_enterprise_linux/8/html/configuring_infiniband_and_rdma_networks/configuring-ipoib_configuring-infiniband-and-rdma-networks#configuring-ipoib_configuring-infiniband-and-rdma-networks 大家可能对IB有所误解,以为使用IB传输,必须使用独特的协议,其实现在大部分场景都是做一个 IP 网络模拟层,这样允许现有未经修改的应用程序通过 InfiniBand 网络传输数据。
152 KiB
Author

LLM比如LLama应该也支持直接跑在infiniband网络上的吧?这种需求要怎么实现?

LLM比如LLama应该也支持直接跑在infiniband网络上的吧?这种需求要怎么实现?

平台提供的ib是infiniband设备
使用时可以照视频或者课件操作即可。
1 需要申请带ib字样的资源来创建notebook或者训练任务
2 进入notebook后可以使用ibstatus查看ib设备
3 训练时使用NCCL的环境变量,NCCL会自动寻找本地的IB设备并使用
4 可以打开NCCL 的debug日志查看,会有using ib的字样表示成功使用了
需要注意的是ib是机器之间的网络连接,走的是专门的网卡和网线,所以测试的话至少要申请两个 “4卡带ib资源”的notebook

平台提供的ib是infiniband设备 使用时可以照视频或者课件操作即可。 1 需要申请带ib字样的资源来创建notebook或者训练任务 2 进入notebook后可以使用ibstatus查看ib设备 3 训练时使用NCCL的环境变量,NCCL会自动寻找本地的IB设备并使用 4 可以打开NCCL 的debug日志查看,会有using ib的字样表示成功使用了 需要注意的是ib是机器之间的网络连接,走的是专门的网卡和网线,所以测试的话至少要申请两个 “4卡带ib资源”的notebook
Sign in to join this conversation.
No Milestone
No project
No Assignees
4 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#351
No description provided.