XPH · 2024-10-11T23:49:12+08:00

XPH commented

2024-10-11 23:49:12 +08:00

No description provided.

6GUH$FW%N9)$68~LEPBQID3.png

26 KiB

MSOX5N59`DY~2[KT2IFV]JR.png

92 KiB

LPE9O}JYN~[}O2N%W%U%U{7.png

106 KiB

B[W2BWEBHV528RJ%OD%0O}I.png

11 KiB

21970855250cs commented

2024-10-13 11:51:02 +08:00

看报错是在这里

        if not self.supports_rm_adapter:
            raise ValueError("This model does not support reward modeling adapter.")

需要debug下，看看self.supports_rm_adapter为什么是false

看报错是在这里 ```python if not self.supports_rm_adapter: raise ValueError("This model does not support reward modeling adapter.") ``` 需要debug下，看看self.supports_rm_adapter为什么是false

21970855250cs commented

2024-10-13 11:54:12 +08:00

看截屏是在平台上跑的，可以把代码【算法】共享下，我们debug看下什么原因

XPH commented

2024-10-13 12:03:51 +08:00

看截屏是在平台上跑的，可以把代码【算法】共享下，我们debug看下什么原因

好的感谢，已共享，算法名叫RLHF-GLM4，但是我把基座模型换成Qwen了

> 看截屏是在平台上跑的，可以把代码【算法】共享下，我们debug看下什么原因好的感谢，已共享，算法名叫RLHF-GLM4，但是我把基座模型换成Qwen了

21970855250cs commented

2024-10-15 23:18:37 +08:00

rlhf.py 里在使用AutoModelForCausalLMWithValueHead直接加载了qwen模型，这里是不对的。之前训练的reward没有用上
需要加上

model = AutoModelForCausalLMWithValueHead.from_pretrained(
    "./model/Qwen/Qwen2-7B-Instruct", 
    trust_remote_code=True, 
    device_map="auto", 
    peft_config=peft_config, 
    low_cpu_mem_usage=True, 
    torch_dtype=torch.bfloat16,
    reward_adapter="/code/medical_project/reward_model/checkpoint-350"
)

`rlhf.py` 里在使用`AutoModelForCausalLMWithValueHead`直接加载了qwen模型，这里是不对的。之前训练的reward没有用上需要加上 ``` model = AutoModelForCausalLMWithValueHead.from_pretrained( "./model/Qwen/Qwen2-7B-Instruct", trust_remote_code=True, device_map="auto", peft_config=peft_config, low_cpu_mem_usage=True, torch_dtype=torch.bfloat16, reward_adapter="/code/medical_project/reward_model/checkpoint-350" ) ```

XPH commented

2024-10-16 23:58:18 +08:00

rlhf.py 里在使用AutoModelForCausalLMWithValueHead直接加载了qwen模型，这里是不对的。之前训练的reward没有用上
需要加上
model = AutoModelForCausalLMWithValueHead.from_pretrained(
    "./model/Qwen/Qwen2-7B-Instruct", 
    trust_remote_code=True, 
    device_map="auto", 
    peft_config=peft_config, 
    low_cpu_mem_usage=True, 
    torch_dtype=torch.bfloat16,
    reward_adapter="/code/medical_project/reward_model/checkpoint-350"
)

原来如此，感谢老师，学习到了

> `rlhf.py` 里在使用`AutoModelForCausalLMWithValueHead`直接加载了qwen模型，这里是不对的。之前训练的reward没有用上 > 需要加上 > ``` > model = AutoModelForCausalLMWithValueHead.from_pretrained( > "./model/Qwen/Qwen2-7B-Instruct", > trust_remote_code=True, > device_map="auto", > peft_config=peft_config, > low_cpu_mem_usage=True, > torch_dtype=torch.bfloat16, > reward_adapter="/code/medical_project/reward_model/checkpoint-350" > ) > ``` > 原来如此，感谢老师，学习到了

Sign in to join this conversation.