2406课程19节Ray老师课程，llama-factory模型微调报错 #515

New Issue

Aa123456 · 2025-02-09T19:19:01+08:00

Aa123456 commented

2025-02-09 19:19:01 +08:00

autodl,llama-factory使用机器如图5配置，使用图2参数，模型微调报错,如图3，后来把批处理大小改为1，还是报这个错，
后来把镜像修改为 PyTorch 2.5.1 Python 3.12(ubuntu22.04) Cuda 12.4，机器无空闲gpu，于是克隆实例到新的机器上，啥模型都没有了，克隆了2次，都是这样，请问老师这是咋回事呢？
图4是都下载完后，实例的使用情况
我应该使用什么配置的机器呢？
我在web页面下载deepseek模型，只是对话的话，也能使用吗？

autodl,llama-factory使用机器如图5配置，使用图2参数，模型微调报错,如图3，后来把批处理大小改为1，还是报这个错，后来把镜像修改为 PyTorch 2.5.1 Python 3.12(ubuntu22.04) Cuda 12.4，机器无空闲gpu，于是克隆实例到新的机器上，啥模型都没有了，克隆了2次，都是这样，请问老师这是咋回事呢？图4是都下载完后，实例的使用情况我应该使用什么配置的机器呢？我在web页面下载deepseek模型，只是对话的话，也能使用吗？

1739086312946.png

95 KiB

1739097827401.png

110 KiB

1739097857892.png

101 KiB

1739098354866.png

20 KiB

微信图片_20250209190945.jpg

225 KiB

Aa123456 commented

2025-02-09 19:20:15 +08:00

我可以等我的实例有空闲gpu了，再使用吗？可以等到吗？

rayhsw commented

2025-02-11 12:17:31 +08:00

我可以等我的实例有空闲gpu了，再使用吗？可以等到吗？

可以

> 我可以等我的实例有空闲gpu了，再使用吗？可以等到吗？可以

rayhsw commented

2025-02-11 12:19:02 +08:00

autodl,llama-factory使用机器如图5配置，使用图2参数，模型微调报错,如图3，后来把批处理大小改为1，还是报这个错，
后来把镜像修改为 PyTorch 2.5.1 Python 3.12(ubuntu22.04) Cuda 12.4，机器无空闲gpu，于是克隆实例到新的机器上，啥模型都没有了，克隆了2次，都是这样，请问老师这是咋回事呢？
图4是都下载完后，实例的使用情况
我应该使用什么配置的机器呢？
我在web页面下载deepseek模型，只是对话的话，也能使用吗？

应该是你的llama-factory没有卸载现存，点击“chat“那一个菜单，然后页面上应该有个卸载按钮。也有可能现存被其他进程占用了，你可以使用nvidia-smi查看显卡占用情况

> autodl,llama-factory使用机器如图5配置，使用图2参数，模型微调报错,如图3，后来把批处理大小改为1，还是报这个错， > 后来把镜像修改为 PyTorch 2.5.1 Python 3.12(ubuntu22.04) Cuda 12.4，机器无空闲gpu，于是克隆实例到新的机器上，啥模型都没有了，克隆了2次，都是这样，请问老师这是咋回事呢？ > 图4是都下载完后，实例的使用情况 > 我应该使用什么配置的机器呢？ > 我在web页面下载deepseek模型，只是对话的话，也能使用吗？应该是你的llama-factory没有卸载现存，点击“chat“那一个菜单，然后页面上应该有个卸载按钮。也有可能现存被其他进程占用了，你可以使用nvidia-smi查看显卡占用情况

Sign in to join this conversation.