【求助帖】20250207，大模型初探- 基于LLaMA-Factory的模型微调 #609

New Issue

ljy · 2025-03-08T20:38:19+08:00

ljy commented

2025-03-08 20:38:19 +08:00

加载 GLM-4-9B-Chat 后，

到测试模型这步都没问题。

【问题1】：用户发问题的时候，回复非常慢。

【问题2】：训练的时候，显示显存不够

大概加载checkpoint到这里就达到极限了

报错 OOM，RuntimeError: RuntimeError: CUDA out of memory. Tried to allocate 214.00 MiB (GPU 0; 23.70 GiB total capacity; 21.60 GiB already allocated; 59.00 MiB free; 21.63 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

但是我看老师也是用的24GB总显存也是可以训练，想请问，是为什么我显存不够？
已经尝试 epoch 调成1，batch size也调小了，数据量从80条数据也减半了，还是不行。想问问应该怎么做呢？

换了一个 1.8B 的Qwen模型，

加载成功原模型【Qwen-1.8B-Chat】后，测试模型出现问题

报错这个，

还是一直解决不了，请求帮助

加载 GLM-4-9B-Chat 后，到测试模型这步都没问题。 ![image](/attachments/aa1d2797-3bbd-4775-9bbb-af0d27d9b7fc) 【问题1】：用户发问题的时候，回复非常慢。【问题2】：训练的时候，显示显存不够 ![image2](/attachments/922f2536-f925-40b2-b9f7-f113b278eda3) 大概加载checkpoint到这里就达到极限了 ![image4](/attachments/690a25c9-c492-4073-b4b4-cd0edf3c7bf9) 报错 OOM，RuntimeError: RuntimeError: CUDA out of memory. Tried to allocate 214.00 MiB (GPU 0; 23.70 GiB total capacity; 21.60 GiB already allocated; 59.00 MiB free; 21.63 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF - 但是我看老师也是用的24GB总显存也是可以训练，想请问，是为什么我显存不够？ - 已经尝试 epoch 调成1，batch size也调小了，数据量从80条数据也减半了，还是不行。想问问应该怎么做呢？ ![image5](/attachments/880a7fe0-6252-4e08-942c-42a09882d22a) --- 换了一个 1.8B 的Qwen模型，加载成功原模型【Qwen-1.8B-Chat】后，测试模型出现问题 ![image6](/attachments/a8006f44-ce34-42df-8538-82a6065e1ebb) 报错这个， ![image7](/attachments/de30c698-c78b-4959-be1c-2900beb9d92f) 还是一直解决不了，请求帮助

image.png

143 KiB

image.png

169 KiB

image.png

63 KiB

image2.png

82 KiB

image4.png

106 KiB

image5.png

60 KiB

image6.png

55 KiB

image7.png

122 KiB

rayhsw commented

2025-03-12 22:18:09 +08:00

可以在命令行，输入nvidia-smi查看是否还有其他进程占用显存

ljy commented

2025-03-12 22:31:30 +08:00

可以在命令行，输入nvidia-smi查看是否还有其他进程占用显存

没有其他进程占用，我有附上watch nvidia-smi的截图，只有当前进程占用

> 可以在命令行，输入nvidia-smi查看是否还有其他进程占用显存没有其他进程占用，我有附上watch nvidia-smi的截图，只有当前进程占用

rayhsw commented

2025-03-14 22:19:52 +08:00

看看点击“卸载”模型后，显存有没有下降？

ljy commented

2025-03-15 23:35:15 +08:00

有的哦老师，真的没其他任务在占用的显存的，我不明白为什么同样 24G显存，9B我微调不了 checkpoint都没加载完，跟着老师相同的步骤相同的模型参数，相同的显存。

老师，我有个请求，可以远程帮忙看看和解答吗？麻烦了
主要是这个问题我问了一周，三天回一次，还没解决到问题，学习进度很慢呢，谢谢帮助~

![image](/attachments/7298e72c-074f-4321-bb16-bfdafc7bc165) 有的哦老师，真的没其他任务在占用的显存的，我不明白为什么同样 24G显存，9B我微调不了 checkpoint都没加载完，跟着老师相同的步骤相同的模型参数，相同的显存。老师，我有个请求，可以远程帮忙看看和解答吗？麻烦了主要是这个问题我问了一周，三天回一次，还没解决到问题，学习进度很慢呢，谢谢帮助~

image.png

28 KiB

rayhsw commented

2025-03-18 12:05:50 +08:00

建议换一台机器试试看。怀疑是显卡的问题。

ljy commented

2025-03-19 15:33:09 +08:00

换了两台服务器的显卡都是这个问题哦，怎么检查是什么问题，希望远程帮助排查问题

rayhsw commented

2025-04-02 22:21:13 +08:00

麻烦全程录屏，我这边可以把你仔细检查操作流程。

ljy commented

2025-04-15 19:06:10 +08:00

我这边新出现一个报错，（原本没有这个报错的）没成功解决这个报错，可以帮我看看吗？谢谢

20250415_110339.mp4

5.1 MiB

rayhsw commented

2025-04-23 16:25:09 +08:00

麻烦运行下面的命令：pip freeze > requirements_output.txt，然后把requirements_output.txt发到论坛上，我这边怀疑是您的pytorch版本或者其他依赖包版本和老师的不一样。另外，我看您租用的CUDA版本是11.4，请确保CUDA在11.8以上或者12.1都可以。

麻烦运行下面的命令：pip freeze > requirements_output.txt，然后把`requirements_output.txt`发到论坛上，我这边怀疑是您的pytorch版本或者其他依赖包版本和老师的不一样。另外，我看您租用的CUDA版本是11.4，请确保CUDA在11.8以上或者12.1都可以。<img width="505" alt="image" src="/attachments/08ddcf8f-c8eb-4747-b7b0-c46ee4cd2a3f">

image.png

129 KiB

Sign in to join this conversation.