微调时,没有曲线,检查点选中后,大模型开始胡言乱语 #261
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
6 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#261
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
同求助,蹲点,查看服务器那端日志发现第一轮的梯度范数为nan
可以提供更多信息嘛?比如模型名称等。
然后在加载模型前先确保已经卸载了之前的模型。
GLM-4-9b-chat
卸载过的,不然服务器端无法微调
请截完整的ui界面,便于排查模型问题,确保使用了GLM-4-9b-chat,如果条件允许,请录屏,然后上传操作视频,方便排查问题,谢谢。
已上传
在视频中看到有将数据路径从data改成了LLaMAFactory/data,可以保持原来的data,试试这样行不行
我在data/下,什么也没有
请问解决了吗
请将LLaMA-Factory放置在/root/目录下,也就是:/root/LLaMA-Factory,然后再重复做一次实验

没有呢
试过了,可以在data/下载入my_demo了,还是没曲线,回复异常。我看到我的服务器端训练的时候中间有一段代码Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared object file: No such file or directory
麻烦将使用的镜像截图一下?或者试试cuda12的版本
并使用fp16试试
更新CUDA前,使用fp16出现曲线如下图1-2;执行在线课件中的安装特定版本依赖后(应该是更新CUDA12的),使用bf16微调后曲线正常;感谢老师的耐心解答
实验复现完成
8bit 量化后,结果正常
4bit量化训练后,结果正常
nextchat接入微调后的模型,回答正常