• Joined on 2024-07-06
XPH opened issue HswOAuth/llm_course#276 2024-10-23 18:21:42 +08:00
经历了医疗数据的有监督SFT微调、奖励模型RM微调、PPO训练再到vllm部署,想知道如何证明最终微调结果回答的问题是否符合客观事实?太专业了看不懂医疗信息
XPH opened issue HswOAuth/llm_course#253 2024-10-21 18:51:37 +08:00
微调大模型的时候,训练集损失函数没有下降趋势,但是验证集损失函数一直下降,这种情况应该还不算是过拟合现象吧?
XPH closed issue HswOAuth/llm_course#208 2024-10-19 00:03:09 +08:00
像截图中微调大模型任务,微调不到10%损失函数就下降那么低了之后就收敛了,我还有必要继续训练还是直接中断进行部署?
XPH commented on issue HswOAuth/llm_course#204 2024-10-18 23:28:17 +08:00
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))

vllm 目前只支持 named function calling,可能是问题所在 image

好的,明白了。那我得把vl…

XPH commented on issue HswOAuth/llm_course#204 2024-10-18 21:07:28 +08:00
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))

可以先用openai的sdk调用下调试,如果没有问题,再调试下autogen。 另外就是建议在使用vllm的时候可以使用参数--served-model-name把模型名字改一下 a…

XPH commented on issue HswOAuth/llm_course#204 2024-10-18 01:10:16 +08:00
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))

可以先用openai的sdk调用下调试,如果没有问题,再调试下autogen。 另外就是建议在使用vllm的时候可以使用参数--served-model-name把模型名字改一下

XPH commented on issue HswOAuth/llm_course#208 2024-10-17 15:40:43 +08:00
像截图中微调大模型任务,微调不到10%损失函数就下降那么低了之后就收敛了,我还有必要继续训练还是直接中断进行部署?

我觉得确实是可以考虑直接中断的,如果训练得过多甚至可能会出现过拟合。 但是要小心喔,提前结束训练需要先确定你的模型会在适当的检查…

XPH opened issue HswOAuth/llm_course#208 2024-10-17 14:17:00 +08:00
像截图中微调大模型任务,微调不到10%损失函数就下降那么低了之后就收敛了,我还有必要继续训练还是直接中断进行部署?
XPH commented on issue HswOAuth/llm_course#204 2024-10-17 00:08:37 +08:00
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))

本来想直接openai调用gpt,但发现好像不够token了,所以就换本地大模型仿造调用openai接口来进行交互,但一直获取不了部署好的本地大模型。

XPH opened issue HswOAuth/llm_course#204 2024-10-17 00:03:44 +08:00
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))
XPH opened issue HswOAuth/llm_course#183 2024-10-11 23:49:12 +08:00
在进行RLHF微调任务中,训练完奖励模型之后,再进行PPO训练,出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练,求助各位如何解决?是我的训练奖励模型出差错还是PPO训练出差错?(所有训练的基座大模型都是Qwen2-7b-instruct,actor和critic模型共用同一个基座大模型Qwen2-7b-instruct)。图1为报错信息,图2为训练奖励模型,图3为PPO训练,图4为训练好的奖励模型其中的ckpts
XPH closed issue HswOAuth/llm_course#167 2024-10-11 09:10:37 +08:00
进行RLHF微调中的奖励模型训练阶段,在进行数据处理时出现错误,在本地电脑能成功跑通,但是显存资源不够。在汇视威平台就出现了以下的报错信息。本地的和汇视威平台的transformers库以及tokenizers库都相同,不明白在汇视威平台执行图1的代码时为什么报错?求助如何解决?
XPH opened issue HswOAuth/llm_course#167 2024-10-09 14:13:48 +08:00
进行RLHF微调中的奖励模型训练阶段,在进行数据处理时出现错误,在本地电脑能成功跑通,但是显存资源不够。在汇视威平台就出现了以下的报错信息。本地的和汇视威平台的transformers库以及tokenizers库都相同,不明白在汇视威平台执行图1的代码时为什么报错?求助如何解决?
XPH closed issue HswOAuth/llm_course#158 2024-10-09 10:11:09 +08:00
使用deepspeed进行微调出现错误,该怎么解决?
XPH commented on issue HswOAuth/llm_course#158 2024-10-09 10:11:07 +08:00
使用deepspeed进行微调出现错误,该怎么解决?

右图是报错信息,左图是依赖库的版本信息

可以先确认一下模型地址

感谢回复,已解决了,是pytorch版本问题,把它降到了2.1.0。

XPH opened issue HswOAuth/llm_course#158 2024-10-07 23:07:11 +08:00
使用deepspeed进行微调出现错误,该怎么解决?