平台的“模型调试”和“训练管理”有什么相同和不同的地方? #120
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
4 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#120
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
“模型调试”


和“训练管理”
我理解,模型调试是要自己打开notebook(相当于物理机),然后每台物理机输入一个个命令,完成训练。而训练管理,就相当于做了脚本,只要输入一个执行脚本的命令就可以了,不用再每台机器进行输入,效率更高。相当于用脚本把配置参数、环境变量都配置好了,只要输入一个命令就开始执行,更方便
感觉[模型调试]就是打开notebook进行调试模型的,调试代码用的,进行小规模测试保障代码成功运行。
[训练管理]则是模式调试ok之后,进行一键训练,避免模型运行时出现不必要的错误而停止。
比如进行20机80卡实验时,先通过模型调试模块,进行3机的小集群测试,确认代码无误后,再进行训练管理一键运行。
士大夫
那请问一下,比如【模型调试】新建了2个notebook名称分别是:notebook1,notebook2,但是在[训练管理]里创建训练任务的时候,并没有任何地方选择对应的notebook,那么训练任务是怎么定位是在哪个notebook中进行呢