超算平台网卡infiniband功能不可用 #351
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
4 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#351
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
http://218.76.8.34:8090/hswai/#/
1、如下输出是不是说服务器上有4块infiniband网卡,但是这些网卡的infiniband功能都有问题,不能用,用来微调走的是IP网络吧? 如何能启用infiniband功能?
2、这个网卡同时有ip和infiniband功能,如何在训练的时候指定用infiniband功能?
root@r3c417e532cf48f0a8e5ac069e071215-task0-0:/# ibv_devices
device node GUID
------ ----------------
mlx5_0 86e6e8611f044dad
mlx5_1 86e6e8611f044daf
mlx5_2 86e6e8611f044db3
mlx5_3 86e6e8611f044db1
root@r3c417e532cf48f0a8e5ac069e071215-task0-0:/# ibv_devinfo
Failed to open device
Failed to open device
Failed to open device
Failed to open device
超算平台infiniband网卡不可用to 超算平台网卡infiniband功能不可用当前内部使用的是基于ibdevice封装的overlay技术保证集群训练网络通信,并不会直接提供ibdevice设备能力给pod直接使用.
请问您是在上哪一节课用到的集群训练技术?请确保使用的容器与老师提供的容器一致。
如何理解“不会直接提供ibdevice设备能力给pod直接使用”,在我的机器里看不到ib设备么?看不到的话,怎么调用?7.27云平台基于IB的多机多卡训练微调+两个实战-基德老师讲的,怎么基于ib网络做训练?
另外,所有用到超算平台的实验,也要调用ib网络的啊。
用户不需要关心IB设备,直接使用IP即可,IP over InfiniBand (IPoIB)可参考英伟达说明:https://docs.nvidia.com/networking/display/mlnxofedv23070512/ip+over+infiniband+(ipoib)
也可查看这篇文章,加深对IB网卡的理解:https://docs.redhat.com/zh_hans/documentation/red_hat_enterprise_linux/8/html/configuring_infiniband_and_rdma_networks/configuring-ipoib_configuring-infiniband-and-rdma-networks#configuring-ipoib_configuring-infiniband-and-rdma-networks
大家可能对IB有所误解,以为使用IB传输,必须使用独特的协议,其实现在大部分场景都是做一个 IP 网络模拟层,这样允许现有未经修改的应用程序通过 InfiniBand 网络传输数据。
LLM比如LLama应该也支持直接跑在infiniband网络上的吧?这种需求要怎么实现?
平台提供的ib是infiniband设备
使用时可以照视频或者课件操作即可。
1 需要申请带ib字样的资源来创建notebook或者训练任务
2 进入notebook后可以使用ibstatus查看ib设备
3 训练时使用NCCL的环境变量,NCCL会自动寻找本地的IB设备并使用
4 可以打开NCCL 的debug日志查看,会有using ib的字样表示成功使用了
需要注意的是ib是机器之间的网络连接,走的是专门的网卡和网线,所以测试的话至少要申请两个 “4卡带ib资源”的notebook