Block a user
经历了医疗数据的有监督SFT微调、奖励模型RM微调、PPO训练再到vllm部署,想知道如何证明最终微调结果回答的问题是否符合客观事实?太专业了看不懂医疗信息
微调大模型的时候,训练集损失函数没有下降趋势,但是验证集损失函数一直下降,这种情况应该还不算是过拟合现象吧?
像截图中微调大模型任务,微调不到10%损失函数就下降那么低了之后就收敛了,我还有必要继续训练还是直接中断进行部署?
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))
vllm 目前只支持 named function calling,可能是问题所在
好的,明白了。那我得把vl…
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))
可以先用openai的sdk调用下调试,如果没有问题,再调试下autogen。 另外就是建议在使用vllm的时候可以使用参数
--served-model-name
把模型名字改一下 a…
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))
可以先用openai的sdk调用下调试,如果没有问题,再调试下autogen。 另外就是建议在使用vllm的时候可以使用参数
--served-model-name
把模型名字改一下
…
像截图中微调大模型任务,微调不到10%损失函数就下降那么低了之后就收敛了,我还有必要继续训练还是直接中断进行部署?
我觉得确实是可以考虑直接中断的,如果训练得过多甚至可能会出现过拟合。 但是要小心喔,提前结束训练需要先确定你的模型会在适当的检查…
像截图中微调大模型任务,微调不到10%损失函数就下降那么低了之后就收敛了,我还有必要继续训练还是直接中断进行部署?
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))
本来想直接openai调用gpt,但发现好像不够token了,所以就换本地大模型仿造调用openai接口来进行交互,但一直获取不了部署好的本地大模型。
请问autogen能调用本地大模型吗?autogen一直无法获取本地大模型,该怎么解决?(本地大模型已通过vllm部署))
在进行RLHF微调任务中,训练完奖励模型之后,再进行PPO训练,出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练,求助各位如何解决?是我的训练奖励模型出差错还是PPO训练出差错?(所有训练的基座大模型都是Qwen2-7b-instruct,actor和critic模型共用同一个基座大模型Qwen2-7b-instruct)。图1为报错信息,图2为训练奖励模型,图3为PPO训练,图4为训练好的奖励模型其中的ckpts
rlhf.py
里在使用AutoModelForCausalLMWithValueHead
直接加载了qwen模型,这里是不对的。之前训练的reward没有用上 需要加上model = AutoModelForCausalLMW…
在进行RLHF微调任务中,训练完奖励模型之后,再进行PPO训练,出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练,求助各位如何解决?是我的训练奖励模型出差错还是PPO训练出差错?(所有训练的基座大模型都是Qwen2-7b-instruct,actor和critic模型共用同一个基座大模型Qwen2-7b-instruct)。图1为报错信息,图2为训练奖励模型,图3为PPO训练,图4为训练好的奖励模型其中的ckpts
看截屏是在平台上跑的,可以把代码【算法】共享下,我们debug看下什么原因
好的感谢,已共享,算法名叫RLHF-GLM4,但是我把基座模型换成Qwen了
在进行RLHF微调任务中,训练完奖励模型之后,再进行PPO训练,出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练,求助各位如何解决?是我的训练奖励模型出差错还是PPO训练出差错?(所有训练的基座大模型都是Qwen2-7b-instruct,actor和critic模型共用同一个基座大模型Qwen2-7b-instruct)。图1为报错信息,图2为训练奖励模型,图3为PPO训练,图4为训练好的奖励模型其中的ckpts
进行RLHF微调中的奖励模型训练阶段,在进行数据处理时出现错误,在本地电脑能成功跑通,但是显存资源不够。在汇视威平台就出现了以下的报错信息。本地的和汇视威平台的transformers库以及tokenizers库都相同,不明白在汇视威平台执行图1的代码时为什么报错?求助如何解决?
进行RLHF微调中的奖励模型训练阶段,在进行数据处理时出现错误,在本地电脑能成功跑通,但是显存资源不够。在汇视威平台就出现了以下的报错信息。本地的和汇视威平台的transformers库以及tokenizers库都相同,不明白在汇视威平台执行图1的代码时为什么报错?求助如何解决?
这里应该是中文导致的错误,tokenzier有两个实现,这里应该是rust的报错。可以在初始化tokenizer的时候将use_fast设置成false试一下。
还是不行,我加…
进行RLHF微调中的奖励模型训练阶段,在进行数据处理时出现错误,在本地电脑能成功跑通,但是显存资源不够。在汇视威平台就出现了以下的报错信息。本地的和汇视威平台的transformers库以及tokenizers库都相同,不明白在汇视威平台执行图1的代码时为什么报错?求助如何解决?