【求助帖】autoDL基于LLaMA-Factory微调glm4-9b后，模型乱回复 #279

New Issue

11648734137cs · 2024-10-23T22:16:33+08:00

11648734137cs commented

2024-10-23 22:16:33 +08:00

训练过程

-（按照pdf教程做环境）：

数据集正常加载，附件中有demo.json全部内容。
正常训练完毕，损失图没有显示
LLaMA-Factory webui控制台输出一下反馈
控制台反馈中的图片为：

训练结果

乱回复

想请教是哪里的问题导致的

# 训练过程 -（按照pdf教程做环境）： ![image](/attachments/da12c14b-e480-4652-b949-51601f991d2b) 1. 数据集正常加载，附件中有demo.json全部内容。 ![image](/attachments/40f0d525-93c6-4421-8dd6-6a65ff868b79) 2. 正常训练完毕，损失图没有显示 ![image](/attachments/c4527ce5-a11f-4a8c-8f06-6f6ba2453acb) 3. LLaMA-Factory webui控制台输出一下反馈 ![image](/attachments/e4ae74cc-8819-4129-bde9-29a35ef7bfff) 4. 控制台反馈中的图片为： ![image](/attachments/bab1f2f9-22c2-4202-8ece-321f236f0015) # 训练结果 - 乱回复 ![image](/attachments/17a3a053-3e18-4414-9321-f69a8c406bfc) 想请教是哪里的问题导致的

image.png

234 KiB

image.png

250 KiB

image.png

230 KiB

image.png

148 KiB

image.png

278 KiB

image.png

261 KiB

image.png

279 KiB

demo.json

21 KiB

11648734137cs commented

2024-10-23 22:28:15 +08:00

Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared ob ject file: No such file or directory

看训练时日志也存在这个报错

Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared ob ject file: No such file or directory 看训练时日志也存在这个报错 <img width="1028" alt="image" src="/attachments/d1a7a2eb-bb98-4b40-a71c-b341d476760e">

image.png

260 KiB

11648734137cs commented

2024-10-23 22:42:16 +08:00

基于前面Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared ob ject file: No such file or directory的报错，
通过find命令找到libnvrtc.so.12，通过export设置环境变量。重新做了一次训练。最终控制台日志见附件failed.log。

依旧没有损失图，模型依旧乱回复。

基于前面Could not load library libnvrtc.so.12. Error: libnvrtc.so.12: cannot open shared ob ject file: No such file or directory的报错，通过find命令找到libnvrtc.so.12，通过export设置环境变量。重新做了一次训练。最终控制台日志见附件failed.log。依旧没有损失图，模型依旧乱回复。

failed.log

21 KiB

12390900721cs commented

2024-10-24 18:01:03 +08:00

不少同学都出现了这个问题，麻烦同学在这个帖子后面进行一下跟进，后续如果有解决方案会在这里更新#273 (comment)

不少同学都出现了这个问题，麻烦同学在这个帖子后面进行一下跟进，后续如果有解决方案会在这里更新https://hsw-git.huishiwei.cn/HswOAuth/llm_course/issues/273#issue-315

11000299875cs commented

2024-10-24 21:22:54 +08:00

我也遇到了这个问题，试了两遍，都是这个问题。然后换了个机器，发现还是这个问题。
然后我换了模型，不用GLM-9B-Chat，换成Qwen-7B-Chat, 就可以正常训练，正常回复了，结果跟老师在课堂上演示的一样。
不确定是不是 GLM模型的问题。

我也遇到了这个问题，试了两遍，都是这个问题。然后换了个机器，发现还是这个问题。然后我换了模型，不用GLM-9B-Chat，换成Qwen-7B-Chat, 就可以正常训练，正常回复了，结果跟老师在课堂上演示的一样。不确定是不是 GLM模型的问题。

11648734137cs commented

2024-10-24 22:08:44 +08:00

我也遇到了这个问题，试了两遍，都是这个问题。然后换了个机器，发现还是这个问题。
然后我换了模型，不用GLM-9B-Chat，换成Qwen-7B-Chat, 就可以正常训练，正常回复了，结果跟老师在课堂上演示的一样。
不确定是不是 GLM模型的问题。

哈哈，还真是，我也做出来了，感谢分享。这个GLM模型就是不行。

> 我也遇到了这个问题，试了两遍，都是这个问题。然后换了个机器，发现还是这个问题。 > 然后我换了模型，不用GLM-9B-Chat，换成Qwen-7B-Chat, 就可以正常训练，正常回复了，结果跟老师在课堂上演示的一样。 > 不确定是不是 GLM模型的问题。哈哈，还真是，我也做出来了，感谢分享。这个GLM模型就是不行。

11648734137cs closed this issue

2024-10-24 22:08:46 +08:00

Sign in to join this conversation.