【求助帖】10/20 大模型初探-基于LLaMA-Factory的模型微调训练 #242

New Issue

rebibabo · 2024-10-20T22:21:59+08:00

rebibabo commented

2024-10-20 22:21:59 +08:00

为什么我开始微调之后先是报错

然后训练过程中梯度一直是nan，降低学习率、降低max_grad_norm、设置为f32精度，还是这样，请问怎么解决呢

为什么我开始微调之后先是报错 ![image](/attachments/722d0f82-e1b5-4830-b4b1-fb30f8a5e308) 然后训练过程中梯度一直是nan，降低学习率、降低max_grad_norm、设置为f32精度，还是这样，请问怎么解决呢 ![image](/attachments/ed4909ca-ca79-4a99-b42a-60fc58b632e1)

image.png

46 KiB

image.png

19 KiB

HswOAuth commented

2024-10-22 21:14:11 +08:00

是否是按上课时一幕一样操作？所使用的环境能否告知一下？比如说autodl租用，还是自己私有化服务器？