微调时,没有曲线,检查点选中后,大模型开始胡言乱语 #261

Open
opened 2024-10-21 23:12:29 +08:00 by Chanson · 20 comments
No description provided.

同求助,蹲点,查看服务器那端日志发现第一轮的梯度范数为nan

同求助,蹲点,查看服务器那端日志发现第一轮的梯度范数为nan

可以提供更多信息嘛?比如模型名称等。

然后在加载模型前先确保已经卸载了之前的模型。

可以提供更多信息嘛?比如模型名称等。 然后在加载模型前先确保已经卸载了之前的模型。
Author

可以提供更多信息嘛?比如模型名称等。

然后在加载模型前先确保已经卸载了之前的模型。

GLM-4-9b-chat

> 可以提供更多信息嘛?比如模型名称等。 > > 然后在加载模型前先确保已经卸载了之前的模型。 GLM-4-9b-chat
Author

可以提供更多信息嘛?比如模型名称等。

然后在加载模型前先确保已经卸载了之前的模型。

GLM-4-9b-chat

卸载过的,不然服务器端无法微调

> > 可以提供更多信息嘛?比如模型名称等。 > > > > 然后在加载模型前先确保已经卸载了之前的模型。 > > GLM-4-9b-chat 卸载过的,不然服务器端无法微调
Owner

请截完整的ui界面,便于排查模型问题,确保使用了GLM-4-9b-chat,如果条件允许,请录屏,然后上传操作视频,方便排查问题,谢谢。

请截完整的ui界面,便于排查模型问题,确保使用了GLM-4-9b-chat,如果条件允许,请录屏,然后上传操作视频,方便排查问题,谢谢。
Author

请截完整的ui界面,便于排查模型问题,确保使用了GLM-4-9b-chat,如果条件允许,请录屏,然后上传操作视频,方便排查问题,谢谢。

已上传

> 请截完整的ui界面,便于排查模型问题,确保使用了GLM-4-9b-chat,如果条件允许,请录屏,然后上传操作视频,方便排查问题,谢谢。 已上传
Author
No description provided.

在视频中看到有将数据路径从data改成了LLaMAFactory/data,可以保持原来的data,试试这样行不行

image

在视频中看到有将数据路径从data改成了LLaMAFactory/data,可以保持原来的data,试试这样行不行 ![image](/attachments/4a4be569-ffd2-45b6-8ccf-86789ddeda58)
626 KiB
Author

在视频中看到有将数据路径从data改成了LLaMAFactory/data,可以保持原来的data,试试这样行不行

image

我在data/下,什么也没有

> 在视频中看到有将数据路径从data改成了LLaMAFactory/data,可以保持原来的data,试试这样行不行 > > ![image](/attachments/4a4be569-ffd2-45b6-8ccf-86789ddeda58) 我在data/下,什么也没有

请问解决了吗

请问解决了吗
Owner

请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验
image

请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验 <img width="1040" alt="image" src="/attachments/9d6e2945-6b25-40dc-9986-25e4154192cd">
Author

请问解决了吗

没有呢

> 请问解决了吗 没有呢
Author

请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验
image

试过了,可以在data/下载入my_demo了,还是没曲线,回复异常。我看到我的服务器端训练的时候中间有一段代码Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared object file: No such file or directory

> 请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验 > <img width="1040" alt="image" src="/attachments/9d6e2945-6b25-40dc-9986-25e4154192cd"> 试过了,可以在data/下载入my_demo了,还是没曲线,回复异常。我看到我的服务器端训练的时候中间有一段代码Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared object file: No such file or directory
Owner

请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验
image

试过了,可以在data/下载入my_demo了,还是没曲线,回复异常。我看到我的服务器端训练的时候中间有一段代码Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared object file: No such file or directory

麻烦将使用的镜像截图一下?或者试试cuda12的版本

> > 请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验 > > <img width="1040" alt="image" src="/attachments/9d6e2945-6b25-40dc-9986-25e4154192cd"> > > 试过了,可以在data/下载入my_demo了,还是没曲线,回复异常。我看到我的服务器端训练的时候中间有一段代码Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared object file: No such file or directory 麻烦将使用的镜像截图一下?或者试试cuda12的版本
Owner

并使用fp16试试image

并使用fp16试试<img width="1219" alt="image" src="/attachments/69d34e1f-678e-44ea-9b4d-a7205a8c54e4">

请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验
image

试过了,可以在data/下载入my_demo了,还是没曲线,回复异常。我看到我的服务器端训练的时候中间有一段代码Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared object file: No such file or directory

麻烦将使用的镜像截图一下?或者试试cuda12的版本

> > > 请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验 > > > <img width="1040" alt="image" src="/attachments/9d6e2945-6b25-40dc-9986-25e4154192cd"> > > > > 试过了,可以在data/下载入my_demo了,还是没曲线,回复异常。我看到我的服务器端训练的时候中间有一段代码Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared object file: No such file or directory > > 麻烦将使用的镜像截图一下?或者试试cuda12的版本

并使用fp16试试image

更新CUDA前,使用fp16出现曲线如下图1-2;执行在线课件中的安装特定版本依赖后(应该是更新CUDA12的),使用bf16微调后曲线正常;感谢老师的耐心解答

> 并使用fp16试试<img width="1219" alt="image" src="/attachments/69d34e1f-678e-44ea-9b4d-a7205a8c54e4"> 更新CUDA前,使用fp16出现曲线如下图1-2;执行在线课件中的安装特定版本依赖后(应该是更新CUDA12的),使用bf16微调后曲线正常;感谢老师的耐心解答

实验复现完成
8bit 量化后,结果正常

实验复现完成 8bit 量化后,结果正常

nextchat接入微调后的模型,回答正常

nextchat接入微调后的模型,回答正常
Sign in to join this conversation.
No Milestone
No project
No Assignees
6 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#261
No description provided.