hsw_jide

21970855250cs commented on issue HswOAuth/llm_course#327

2024-10-30 23:22:58 +08:00

【求助帖】fastgpt部署问题

我这里在安装OneAPI 与 FastGPT部分也出现了如下报错，

这里我在前面的docker安装和docker-compose安装都…

21970855250cs commented on issue HswOAuth/llm_course#327

2024-10-30 23:17:03 +08:00

【求助帖】fastgpt部署问题

数据库连接错误，老师这种情况是哪里出问题了那

注意到日志里的一行错误信息 `mysqld: Cannot…

21970855250cs commented on issue HswOAuth/llm_course#328

2024-10-30 22:52:32 +08:00

【求助】多机多卡实验报错

检查下启动的时候是否使用了带IB类型的机器资源

21970855250cs commented on issue HswOAuth/llm_course#313

2024-10-30 22:45:56 +08:00

多机多卡训练实验报错

这个地方有问题

21970855250cs commented on issue HswOAuth/llm_course#323

2024-10-29 20:39:51 +08:00

【求助帖】autodl中如何安装xinterfernce并部署本地模型

有个操作录屏会发给大家

21970855250cs commented on issue HswOAuth/llm_course#320

2024-10-29 20:31:16 +08:00

[求助帖]在Autodl平台，如何启动fsatgpt

fastgpt 和 oneapi 不需要GPU，建议在自己机器上部署，使用docker部署坑比较少模型可以使用xinference在autodl上部署然后使用ssh隧道建立连接，命令如下 …

21970855250cs commented on issue HswOAuth/llm_course#304

2024-10-28 23:20:35 +08:00

【求助贴】关于28-24.10.19-基于Ollama的本地模型部署讲解的一些提问

此外，autoDL 支持使用ssh，此时可以使用ssh建立隧道，类似如下命令 ssh -p 30921 root@connect.nma1.seetacloud.com -L 0.0.0.0:11434:0.0.0.0:11434 -N 在自己电脑上执行…

21970855250cs commented on issue HswOAuth/llm_course#304

2024-10-28 23:20:29 +08:00

【求助贴】关于28-24.10.19-基于Ollama的本地模型部署讲解的一些提问

问题3：使用curl的时候报错 Failed to connect to 172.17.0.10 port 11434: Connection refused 应该使用127.0.0.1 autoDl上应该是容器做了限制，不允许使用容器IP进行…

21970855250cs commented on issue HswOAuth/llm_course#304

2024-10-28 23:14:20 +08:00

【求助贴】关于28-24.10.19-基于Ollama的本地模型部署讲解的一些提问

问题2: 是的AutoDL貌似不支持租赁物理机和虚拟机，无法安装docker。讲义中的使用docker是针对物理机或者虚拟机的，在腾讯云活着阿里云、火山云、AW…

21970855250cs commented on issue HswOAuth/llm_course#304

2024-10-28 23:12:00 +08:00

【求助贴】关于28-24.10.19-基于Ollama的本地模型部署讲解的一些提问

问题1: 访问ollama是本地模型，不是调用GPT，本地地址是127.0.0.1，创建client的时候用如下代码 client = OpenAI(base_url="http://127.0.0.1:11434/v1", api_key="EMPTY") …

21970855250cs commented on issue HswOAuth/llm_course#303

2024-10-27 11:44:31 +08:00

关于VLM课程中使用xinference部署本地模型

另外关于gradio_gpt4o.py脚本，已经添加了记录历史会话信息的逻辑修改后可以将历史会话信息记录下来 <img width="1043" alt="image" src="/attachments/b5c79200-54f…

21970855250cs opened issue HswOAuth/llm_course#303

2024-10-26 21:51:51 +08:00

关于VLM课程中使用xinference部署本地模型

21970855250cs commented on issue HswOAuth/llm_course#204

2024-10-18 23:20:05 +08:00

请问autogen能调用本地大模型吗？autogen一直无法获取本地大模型，该怎么解决？（本地大模型已通过vllm部署)）

vllm 目前只支持 named function calling，可能是问题所在

21970855250cs commented on issue HswOAuth/llm_course#219

2024-10-18 23:15:33 +08:00

128G内存+24G英伟达GPU+CPU:13th i9 13-13900K 3.00GHz;能否跑llama 3.2 11B大模型

可以的，就是显存有点吃力，模型加载使用bfloat16（如果GPU支持的话），大概估算就是1B参数需要2G显存；另外还需要预留足够的显存用来做kv-cache，…

21970855250cs commented on issue HswOAuth/llm_course#214

2024-10-18 22:55:56 +08:00

【求助帖】vLLM作业遇到的问题

建议在使用vllm的时候添加参数--served-model-name把模型名字改一下，因为模型名字里有特殊符号/，可能会有bug

21970855250cs commented on issue HswOAuth/llm_course#204

2024-10-17 22:49:46 +08:00

请问autogen能调用本地大模型吗？autogen一直无法获取本地大模型，该怎么解决？（本地大模型已通过vllm部署)）

可以先用openai的sdk调用下调试，如果没有问题，再调试下autogen。另外就是建议在使用vllm的时候可以使用参数--served-model-name把模型名字改一下

21970855250cs commented on issue HswOAuth/llm_course#200

2024-10-16 21:26:03 +08:00

[求助贴] 0929基于FastGpt+Rag搭建知识问答系统作业求助

是的，autoDL里不能执行docker。建议将模型部署在autodl上，fastgpt和oneapi部署在自己的机器上（不需要GPU）。 autodl上的模型可以通过ssh将端口映射出来…

21970855250cs commented on issue HswOAuth/llm_course#183

2024-10-15 23:18:37 +08:00

在进行RLHF微调任务中，训练完奖励模型之后，再进行PPO训练，出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练，求助各位如何解决？是我的训练奖励模型出差错还是PPO训练出差错？（所有训练的基座大模型都是Qwen2-7b-instruct，actor和critic模型共用同一个基座大模型Qwen2-7b-instruct）。图1为报错信息，图2为训练奖励模型，图3为PPO训练，图4为训练好的奖励模型其中的ckpts

rlhf.py 里在使用AutoModelForCausalLMWithValueHead直接加载了qwen模型，这里是不对的。之前训练的reward没有用上需要加上

model = AutoModelForCausalLMWithValue…

21970855250cs commented on issue HswOAuth/llm_course#183

2024-10-13 11:54:12 +08:00

在进行RLHF微调任务中，训练完奖励模型之后，再进行PPO训练，出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练，求助各位如何解决？是我的训练奖励模型出差错还是PPO训练出差错？（所有训练的基座大模型都是Qwen2-7b-instruct，actor和critic模型共用同一个基座大模型Qwen2-7b-instruct）。图1为报错信息，图2为训练奖励模型，图3为PPO训练，图4为训练好的奖励模型其中的ckpts

看截屏是在平台上跑的，可以把代码【算法】共享下，我们debug看下什么原因

21970855250cs commented on issue HswOAuth/llm_course#183

2024-10-13 11:51:02 +08:00

在进行RLHF微调任务中，训练完奖励模型之后，再进行PPO训练，出现的报错信息显示不支持刚刚训练的奖励模型再进行PPO训练，求助各位如何解决？是我的训练奖励模型出差错还是PPO训练出差错？（所有训练的基座大模型都是Qwen2-7b-instruct，actor和critic模型共用同一个基座大模型Qwen2-7b-instruct）。图1为报错信息，图2为训练奖励模型，图3为PPO训练，图4为训练好的奖励模型其中的ckpts

看报错是在这里

        if not self.supports_rm_adapter:
            raise ValueError("This model does not support reward modeling adapter.")

需要debug下，看看self.su…