XPH - 汇视威代码托管平台

XPH opened issue HswOAuth/llm_course#276

2024-10-23 18:21:42 +08:00

经历了医疗数据的有监督SFT微调、奖励模型RM微调、PPO训练再到vllm部署，想知道如何证明最终微调结果回答的问题是否符合客观事实？太专业了看不懂医疗信息

XPH opened issue HswOAuth/llm_course#253

2024-10-21 18:51:37 +08:00

微调大模型的时候，训练集损失函数没有下降趋势，但是验证集损失函数一直下降，这种情况应该还不算是过拟合现象吧？

XPH closed issue HswOAuth/llm_course#208

2024-10-19 00:03:09 +08:00

像截图中微调大模型任务，微调不到10%损失函数就下降那么低了之后就收敛了，我还有必要继续训练还是直接中断进行部署？

XPH commented on issue HswOAuth/llm_course#204

2024-10-18 23:28:17 +08:00

请问autogen能调用本地大模型吗？autogen一直无法获取本地大模型，该怎么解决？（本地大模型已通过vllm部署)）

vllm 目前只支持 named function calling，可能是问题所在

好的，明白了。那我得把vl…

XPH commented on issue HswOAuth/llm_course#204

2024-10-18 21:07:28 +08:00

请问autogen能调用本地大模型吗？autogen一直无法获取本地大模型，该怎么解决？（本地大模型已通过vllm部署)）

可以先用openai的sdk调用下调试，如果没有问题，再调试下autogen。另外就是建议在使用vllm的时候可以使用参数--served-model-name把模型名字改一下 a…

XPH commented on issue HswOAuth/llm_course#204

2024-10-18 01:10:16 +08:00

请问autogen能调用本地大模型吗？autogen一直无法获取本地大模型，该怎么解决？（本地大模型已通过vllm部署)）

可以先用openai的sdk调用下调试，如果没有问题，再调试下autogen。另外就是建议在使用vllm的时候可以使用参数--served-model-name把模型名字改一下

…

XPH commented on issue HswOAuth/llm_course#208

2024-10-17 15:40:43 +08:00

像截图中微调大模型任务，微调不到10%损失函数就下降那么低了之后就收敛了，我还有必要继续训练还是直接中断进行部署？

我觉得确实是可以考虑直接中断的，如果训练得过多甚至可能会出现过拟合。但是要小心喔，提前结束训练需要先确定你的模型会在适当的检查…

XPH opened issue HswOAuth/llm_course#208

2024-10-17 14:17:00 +08:00

像截图中微调大模型任务，微调不到10%损失函数就下降那么低了之后就收敛了，我还有必要继续训练还是直接中断进行部署？

XPH commented on issue HswOAuth/llm_course#204

2024-10-17 00:08:37 +08:00

请问autogen能调用本地大模型吗？autogen一直无法获取本地大模型，该怎么解决？（本地大模型已通过vllm部署)）

本来想直接openai调用gpt，但发现好像不够token了，所以就换本地大模型仿造调用openai接口来进行交互，但一直获取不了部署好的本地大模型。

XPH opened issue HswOAuth/llm_course#204

2024-10-17 00:03:44 +08:00

请问autogen能调用本地大模型吗？autogen一直无法获取本地大模型，该怎么解决？（本地大模型已通过vllm部署)）

XPH commented on issue HswOAuth/llm_course#183

2024-10-16 23:58:18 +08:00

在进行RLHF微调任务中，训练完奖励模型之后，再进行PPO训练，出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练，求助各位如何解决？是我的训练奖励模型出差错还是PPO训练出差错？（所有训练的基座大模型都是Qwen2-7b-instruct，actor和critic模型共用同一个基座大模型Qwen2-7b-instruct）。图1为报错信息，图2为训练奖励模型，图3为PPO训练，图4为训练好的奖励模型其中的ckpts

rlhf.py 里在使用AutoModelForCausalLMWithValueHead直接加载了qwen模型，这里是不对的。之前训练的reward没有用上需要加上
model = AutoModelForCausalLMW…

XPH commented on issue HswOAuth/llm_course#183

2024-10-13 12:03:51 +08:00

在进行RLHF微调任务中，训练完奖励模型之后，再进行PPO训练，出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练，求助各位如何解决？是我的训练奖励模型出差错还是PPO训练出差错？（所有训练的基座大模型都是Qwen2-7b-instruct，actor和critic模型共用同一个基座大模型Qwen2-7b-instruct）。图1为报错信息，图2为训练奖励模型，图3为PPO训练，图4为训练好的奖励模型其中的ckpts

看截屏是在平台上跑的，可以把代码【算法】共享下，我们debug看下什么原因

好的感谢，已共享，算法名叫RLHF-GLM4，但是我把基座模型换成Qwen了

XPH opened issue HswOAuth/llm_course#183

2024-10-11 23:49:12 +08:00

在进行RLHF微调任务中，训练完奖励模型之后，再进行PPO训练，出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练，求助各位如何解决？是我的训练奖励模型出差错还是PPO训练出差错？（所有训练的基座大模型都是Qwen2-7b-instruct，actor和critic模型共用同一个基座大模型Qwen2-7b-instruct）。图1为报错信息，图2为训练奖励模型，图3为PPO训练，图4为训练好的奖励模型其中的ckpts

XPH closed issue HswOAuth/llm_course#167

2024-10-11 09:10:37 +08:00

进行RLHF微调中的奖励模型训练阶段，在进行数据处理时出现错误，在本地电脑能成功跑通，但是显存资源不够。在汇视威平台就出现了以下的报错信息。本地的和汇视威平台的transformers库以及tokenizers库都相同，不明白在汇视威平台执行图1的代码时为什么报错？求助如何解决？

XPH commented on issue HswOAuth/llm_course#167

2024-10-09 21:13:33 +08:00

进行RLHF微调中的奖励模型训练阶段，在进行数据处理时出现错误，在本地电脑能成功跑通，但是显存资源不够。在汇视威平台就出现了以下的报错信息。本地的和汇视威平台的transformers库以及tokenizers库都相同，不明白在汇视威平台执行图1的代码时为什么报错？求助如何解决？

这里应该是中文导致的错误，tokenzier有两个实现，这里应该是rust的报错。可以在初始化tokenizer的时候将use_fast设置成false试一下。

还是不行，我加…

XPH opened issue HswOAuth/llm_course#167

2024-10-09 14:13:48 +08:00

进行RLHF微调中的奖励模型训练阶段，在进行数据处理时出现错误，在本地电脑能成功跑通，但是显存资源不够。在汇视威平台就出现了以下的报错信息。本地的和汇视威平台的transformers库以及tokenizers库都相同，不明白在汇视威平台执行图1的代码时为什么报错？求助如何解决？

XPH closed issue HswOAuth/llm_course#158

2024-10-09 10:11:09 +08:00

使用deepspeed进行微调出现错误，该怎么解决？

XPH commented on issue HswOAuth/llm_course#158

2024-10-09 10:11:07 +08:00

使用deepspeed进行微调出现错误，该怎么解决？

右图是报错信息，左图是依赖库的版本信息

可以先确认一下模型地址

感谢回复，已解决了，是pytorch版本问题，把它降到了2.1.0。

XPH opened issue HswOAuth/llm_course#158

2024-10-07 23:07:11 +08:00

使用deepspeed进行微调出现错误，该怎么解决？