平台的“模型调试”和“训练管理”有什么相同和不同的地方？ #120

New Issue

11655078858cs · 2024-09-23T23:36:33+08:00

11655078858cs commented

2024-09-23 23:36:33 +08:00

“模型调试”

和“训练管理”

“模型调试” <img width="850" alt="image" src="/attachments/7422fa7d-9e6b-4f6f-9964-60b26e890302"> 和“训练管理” <img width="932" alt="image" src="/attachments/b2aa7ca3-0b03-485c-af0f-c8adbc5f6d8d">

image.png

104 KiB

image.png

155 KiB

11252177484cs commented

2024-09-24 11:07:26 +08:00

我理解，模型调试是要自己打开notebook（相当于物理机），然后每台物理机输入一个个命令，完成训练。而训练管理，就相当于做了脚本，只要输入一个执行脚本的命令就可以了，不用再每台机器进行输入，效率更高。相当于用脚本把配置参数、环境变量都配置好了，只要输入一个命令就开始执行，更方便

21561468829cs commented

2024-09-24 11:43:15 +08:00

感觉[模型调试]就是打开notebook进行调试模型的，调试代码用的，进行小规模测试保障代码成功运行。
[训练管理]则是模式调试ok之后，进行一键训练，避免模型运行时出现不必要的错误而停止。

比如进行20机80卡实验时，先通过模型调试模块，进行3机的小集群测试，确认代码无误后，再进行训练管理一键运行。

感觉[模型调试]就是打开notebook进行调试模型的，调试代码用的，进行小规模测试保障代码成功运行。 [训练管理]则是模式调试ok之后，进行一键训练，避免模型运行时出现不必要的错误而停止。比如进行20机80卡实验时，先通过模型调试模块，进行3机的小集群测试，确认代码无误后，再进行训练管理一键运行。

12584283117cs commented

2025-02-12 22:14:07 +08:00

士大夫

感觉[模型调试]就是打开notebook进行调试模型的，调试代码用的，进行小规模测试保障代码成功运行。
[训练管理]则是模式调试ok之后，进行一键训练，避免模型运行时出现不必要的错误而停止。

比如进行20机80卡实验时，先通过模型调试模块，进行3机的小集群测试，确认代码无误后，再进行训练管理一键运行。

那请问一下，比如【模型调试】新建了2个notebook名称分别是：notebook1，notebook2，但是在[训练管理]里创建训练任务的时候，并没有任何地方选择对应的notebook，那么训练任务是怎么定位是在哪个notebook中进行呢

士大夫 > 感觉[模型调试]就是打开notebook进行调试模型的，调试代码用的，进行小规模测试保障代码成功运行。 > [训练管理]则是模式调试ok之后，进行一键训练，避免模型运行时出现不必要的错误而停止。 > > 比如进行20机80卡实验时，先通过模型调试模块，进行3机的小集群测试，确认代码无误后，再进行训练管理一键运行。那请问一下，比如【模型调试】新建了2个notebook名称分别是：notebook1，notebook2，但是在[训练管理]里创建训练任务的时候，并没有任何地方选择对应的notebook，那么训练任务是怎么定位是在哪个notebook中进行呢

Sign in to join this conversation.