【求助帖】 训练管理中保存的模型找不到 #170
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#170
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
观察一下使用到的一些模型的路径:
模型,在/dataset/Llama-3-8B-Instruct/路径下
数据,在/code/internlm_Agent-FLAN_data
转换后数据,/code/data_converted
已训练模型:/dataset/llama3-8b-functioncall-ft/agent-flan
自己微调后:/userhome/llama3-8b-ft/agent-flan这指定了工作目录,所有训练相关的输出(如模型检查点和日志)将被保存在这里。
后续将/dataset/llama3-8b-functioncall-ft/agent-flan/中的iter_4296.pth(已训练)转换格式并且移动到/code/llama3-8b-ft/agent-flan/iter_4296_hf
合并后:/code/llama3-8b-ft/agent-flan/merged
查看run.sh,可以看到训练脚本规定会将训练日志和模型等输出保存在/userhome/llama3-8b-ft/agent-flan目录下:
训练完成后,查看/userhome/llama3-8b-ft/agent-flan,并不存在与/dataset/llama3-8b-functioncall-ft/agent-flan中类似的iter_4296.pth文件。
是不是不能写入文件到/userhome/llama3-8b-ft/agent-flan中?
尝试能否将文件保存到/userhome/llama3-8b-ft/agent-flan中
成功保存。
会不会是llama3_8b_instruct_qlora_agentflan_3e.py中规定了其他路径?
run.sh中最后的训练代码为:
而调用run.sh的代码为:
本质上还是用run.sh跑llama3_8b_instruct_qlora_agentflan_3e.py文件。查看llama3_8b_instruct_qlora_agentflan_3e.py文件,并没有发现规定下载路径的代码,只有一个
和
规定了存储点和存储时机的问题。
最关键的还是run.sh中用xtuner train指定的工作目录的这一行:
意味着所有的输出,包括模型检查点,将会被保存在这个目录下。
但是就是保存不到,求解答。
已解决