【求助帖】11提示词工程实践-llama7b模型微调报错 #157

Open
opened 2024-10-06 23:03:16 +08:00 by wofociba · 5 comments

如题,在根据教程在【03】步骤时报错

如题,在根据教程在【03】步骤时报错
436 KiB
617 KiB
171 KiB
wofociba changed title from 11\提示词工程实践-llama7b模型微调报错 to 【求助帖】11提示词工程实践-llama7b模型微调报错 2024-10-06 23:10:12 +08:00
Author

对照视频进行第二次运行,报错

对照视频进行第二次运行,报错

可以尝试把当前算法删除,重新复制算法创建一个新的算法试试

可以尝试把当前算法删除,重新复制算法创建一个新的算法试试

删除并重建算法:
eacb5608e802510377f561ebc1deb0a.png
d0aa143298a58f2d930fa10135d491e.png
如果能解决这个问题那么可能是之前在该算法中进行的一些操作导致环境或一些代码出现了修改。重新下一次这个算法再跑一次就能成功。

删除并重建算法: ![eacb5608e802510377f561ebc1deb0a.png](/attachments/6b170096-3c0f-4e85-9aa8-c29256b10d7b) ![d0aa143298a58f2d930fa10135d491e.png](/attachments/232ded3a-a7f3-440d-9c8a-88696d2513dd) 如果能解决这个问题那么可能是之前在该算法中进行的一些操作导致环境或一些代码出现了修改。重新下一次这个算法再跑一次就能成功。
Author

重新新建算法,在输入微调指令启动后是这个结果,跟课件里的不一致,是哪一步有问题嘛

重新新建算法,在输入微调指令启动后是这个结果,跟课件里的不一致,是哪一步有问题嘛

重新新建算法,在输入微调指令启动后是这个结果,跟课件里的不一致,是哪一步有问题嘛

这里应该是环境没有设置好,需要安装NCCL库。安装NCCL库的话在所有机器也就是notebook里输入:
export NCCL_DEBUG=INFO
export NCCL_IB_DISABLE=0
export NCCL_IB_HCA=mlx5
export NCCL_SOCKET_IFNAME=eth0
export NCCL_SOCKET_IFNAME=eth0

安装完毕后再尝试能否训练模型。

> 重新新建算法,在输入微调指令启动后是这个结果,跟课件里的不一致,是哪一步有问题嘛 这里应该是环境没有设置好,需要安装NCCL库。安装NCCL库的话在所有机器也就是notebook里输入: export NCCL_DEBUG=INFO export NCCL_IB_DISABLE=0 export NCCL_IB_HCA=mlx5 export NCCL_SOCKET_IFNAME=eth0 export NCCL_SOCKET_IFNAME=eth0 安装完毕后再尝试能否训练模型。
Sign in to join this conversation.
No Milestone
No project
No Assignees
4 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#157
No description provided.