【求助帖】autoDL基于LLaMA-Factory微调glm4-9b后,模型乱回复 #279

Closed
opened 2024-10-23 22:16:33 +08:00 by 11648734137cs · 5 comments

训练过程

-(按照pdf教程做环境):
image

  1. 数据集正常加载,附件中有demo.json全部内容。
    image
  2. 正常训练完毕,损失图没有显示
    image
  3. LLaMA-Factory webui控制台输出一下反馈
    image
  4. 控制台反馈中的图片为:
    image

训练结果

  • 乱回复
    image

想请教是哪里的问题导致的

# 训练过程 -(按照pdf教程做环境): ![image](/attachments/da12c14b-e480-4652-b949-51601f991d2b) 1. 数据集正常加载,附件中有demo.json全部内容。 ![image](/attachments/40f0d525-93c6-4421-8dd6-6a65ff868b79) 2. 正常训练完毕,损失图没有显示 ![image](/attachments/c4527ce5-a11f-4a8c-8f06-6f6ba2453acb) 3. LLaMA-Factory webui控制台输出一下反馈 ![image](/attachments/e4ae74cc-8819-4129-bde9-29a35ef7bfff) 4. 控制台反馈中的图片为: ![image](/attachments/bab1f2f9-22c2-4202-8ece-321f236f0015) # 训练结果 - 乱回复 ![image](/attachments/17a3a053-3e18-4414-9321-f69a8c406bfc) 想请教是哪里的问题导致的
Author

Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared ob ject file: No such file or directory

看训练时日志也存在这个报错
image

Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared ob ject file: No such file or directory 看训练时日志也存在这个报错 <img width="1028" alt="image" src="/attachments/d1a7a2eb-bb98-4b40-a71c-b341d476760e">
260 KiB
Author

基于前面Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared ob ject file: No such file or directory的报错,
通过find命令找到libnvrtc.so.12,通过export设置环境变量。重新做了一次训练。最终控制台日志见附件failed.log。

依旧没有损失图,模型依旧乱回复。

基于前面Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared ob ject file: No such file or directory的报错, 通过find命令找到libnvrtc.so.12,通过export设置环境变量。重新做了一次训练。最终控制台日志见附件failed.log。 依旧没有损失图,模型依旧乱回复。

不少同学都出现了这个问题,麻烦同学在这个帖子后面进行一下跟进,后续如果有解决方案会在这里更新#273 (comment)

不少同学都出现了这个问题,麻烦同学在这个帖子后面进行一下跟进,后续如果有解决方案会在这里更新https://hsw-git.huishiwei.cn/HswOAuth/llm_course/issues/273#issue-315

我也遇到了这个问题,试了两遍,都是这个问题。然后换了个机器,发现还是这个问题。
然后我换了模型,不用GLM-9B-Chat,换成Qwen-7B-Chat, 就可以正常训练,正常回复了,结果跟老师在课堂上演示的一样。
不确定是不是 GLM模型的问题。

我也遇到了这个问题,试了两遍,都是这个问题。然后换了个机器,发现还是这个问题。 然后我换了模型,不用GLM-9B-Chat,换成Qwen-7B-Chat, 就可以正常训练,正常回复了,结果跟老师在课堂上演示的一样。 不确定是不是 GLM模型的问题。
Author

我也遇到了这个问题,试了两遍,都是这个问题。然后换了个机器,发现还是这个问题。
然后我换了模型,不用GLM-9B-Chat,换成Qwen-7B-Chat, 就可以正常训练,正常回复了,结果跟老师在课堂上演示的一样。
不确定是不是 GLM模型的问题。

哈哈,还真是,我也做出来了,感谢分享。这个GLM模型就是不行。

> 我也遇到了这个问题,试了两遍,都是这个问题。然后换了个机器,发现还是这个问题。 > 然后我换了模型,不用GLM-9B-Chat,换成Qwen-7B-Chat, 就可以正常训练,正常回复了,结果跟老师在课堂上演示的一样。 > 不确定是不是 GLM模型的问题。 哈哈,还真是,我也做出来了,感谢分享。这个GLM模型就是不行。
Sign in to join this conversation.
No Milestone
No project
No Assignees
3 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#279
No description provided.