2406课程19节Ray老师课程,llama-factory模型微调报错 #515

Open
opened 2025-02-09 19:19:01 +08:00 by Aa123456 · 3 comments

autodl,llama-factory使用 机器如图5配置,使用图2参数,模型微调报错,如图3,后来把批处理大小改为1,还是报这个错,
后来把 镜像修改为 PyTorch 2.5.1 Python 3.12(ubuntu22.04) Cuda 12.4,机器无空闲gpu,于是克隆实例到新的机器上,啥模型都没有了,克隆了2次,都是这样,请问老师这是咋回事呢?
图4是都下载完后,实例的使用情况
我应该使用什么配置的机器呢?
我在web页面下载deepseek模型,只是对话的话,也能使用吗?

autodl,llama-factory使用 机器如图5配置,使用图2参数,模型微调报错,如图3,后来把批处理大小改为1,还是报这个错, 后来把 镜像修改为 PyTorch 2.5.1 Python 3.12(ubuntu22.04) Cuda 12.4,机器无空闲gpu,于是克隆实例到新的机器上,啥模型都没有了,克隆了2次,都是这样,请问老师这是咋回事呢? 图4是都下载完后,实例的使用情况 我应该使用什么配置的机器呢? 我在web页面下载deepseek模型,只是对话的话,也能使用吗?
Author

我可以等我的实例有空闲gpu了,再使用吗?可以等到吗?

我可以等我的实例有空闲gpu了,再使用吗?可以等到吗?

我可以等我的实例有空闲gpu了,再使用吗?可以等到吗?

可以

> 我可以等我的实例有空闲gpu了,再使用吗?可以等到吗? 可以

autodl,llama-factory使用 机器如图5配置,使用图2参数,模型微调报错,如图3,后来把批处理大小改为1,还是报这个错,
后来把 镜像修改为 PyTorch 2.5.1 Python 3.12(ubuntu22.04) Cuda 12.4,机器无空闲gpu,于是克隆实例到新的机器上,啥模型都没有了,克隆了2次,都是这样,请问老师这是咋回事呢?
图4是都下载完后,实例的使用情况
我应该使用什么配置的机器呢?
我在web页面下载deepseek模型,只是对话的话,也能使用吗?

应该是你的llama-factory没有卸载现存,点击“chat“那一个菜单,然后页面上应该有个卸载按钮。也有可能现存被其他进程占用了,你可以使用nvidia-smi查看显卡占用情况

> autodl,llama-factory使用 机器如图5配置,使用图2参数,模型微调报错,如图3,后来把批处理大小改为1,还是报这个错, > 后来把 镜像修改为 PyTorch 2.5.1 Python 3.12(ubuntu22.04) Cuda 12.4,机器无空闲gpu,于是克隆实例到新的机器上,啥模型都没有了,克隆了2次,都是这样,请问老师这是咋回事呢? > 图4是都下载完后,实例的使用情况 > 我应该使用什么配置的机器呢? > 我在web页面下载deepseek模型,只是对话的话,也能使用吗? 应该是你的llama-factory没有卸载现存,点击“chat“那一个菜单,然后页面上应该有个卸载按钮。也有可能现存被其他进程占用了,你可以使用nvidia-smi查看显卡占用情况
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#515
No description provided.