平台的“模型调试”和“训练管理”有什么相同和不同的地方? #120

Open
opened 2024-09-23 23:36:33 +08:00 by 11655078858cs · 3 comments

“模型调试”
image
和“训练管理”
image

“模型调试” <img width="850" alt="image" src="/attachments/7422fa7d-9e6b-4f6f-9964-60b26e890302"> 和“训练管理” <img width="932" alt="image" src="/attachments/b2aa7ca3-0b03-485c-af0f-c8adbc5f6d8d">
104 KiB
155 KiB

我理解,模型调试是要自己打开notebook(相当于物理机),然后每台物理机输入一个个命令,完成训练。而训练管理,就相当于做了脚本,只要输入一个执行脚本的命令就可以了,不用再每台机器进行输入,效率更高。相当于用脚本把配置参数、环境变量都配置好了,只要输入一个命令就开始执行,更方便

我理解,模型调试是要自己打开notebook(相当于物理机),然后每台物理机输入一个个命令,完成训练。而训练管理,就相当于做了脚本,只要输入一个执行脚本的命令就可以了,不用再每台机器进行输入,效率更高。相当于用脚本把配置参数、环境变量都配置好了,只要输入一个命令就开始执行,更方便

感觉[模型调试]就是打开notebook进行调试模型的,调试代码用的,进行小规模测试保障代码成功运行。
[训练管理]则是模式调试ok之后,进行一键训练,避免模型运行时出现不必要的错误而停止。

比如进行20机80卡实验时,先通过模型调试模块,进行3机的小集群测试,确认代码无误后,再进行训练管理一键运行。

感觉[模型调试]就是打开notebook进行调试模型的,调试代码用的,进行小规模测试保障代码成功运行。 [训练管理]则是模式调试ok之后,进行一键训练,避免模型运行时出现不必要的错误而停止。 比如进行20机80卡实验时,先通过模型调试模块,进行3机的小集群测试,确认代码无误后,再进行训练管理一键运行。

士大夫

感觉[模型调试]就是打开notebook进行调试模型的,调试代码用的,进行小规模测试保障代码成功运行。
[训练管理]则是模式调试ok之后,进行一键训练,避免模型运行时出现不必要的错误而停止。

比如进行20机80卡实验时,先通过模型调试模块,进行3机的小集群测试,确认代码无误后,再进行训练管理一键运行。

那请问一下,比如【模型调试】新建了2个notebook名称分别是:notebook1,notebook2,但是在[训练管理]里创建训练任务的时候,并没有任何地方选择对应的notebook,那么训练任务是怎么定位是在哪个notebook中进行呢

士大夫 > 感觉[模型调试]就是打开notebook进行调试模型的,调试代码用的,进行小规模测试保障代码成功运行。 > [训练管理]则是模式调试ok之后,进行一键训练,避免模型运行时出现不必要的错误而停止。 > > 比如进行20机80卡实验时,先通过模型调试模块,进行3机的小集群测试,确认代码无误后,再进行训练管理一键运行。 那请问一下,比如【模型调试】新建了2个notebook名称分别是:notebook1,notebook2,但是在[训练管理]里创建训练任务的时候,并没有任何地方选择对应的notebook,那么训练任务是怎么定位是在哪个notebook中进行呢
Sign in to join this conversation.
No Milestone
No project
No Assignees
4 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#120
No description provided.