hsw_ray rayhsw
  • Joined on 2024-07-17
rayhsw commented on issue HswOAuth/llm_course#609 2025-03-12 22:18:09 +08:00
【求助帖】20250207,大模型初探- 基于LLaMA-Factory的模型微调

可以在命令行,输入nvidia-smi查看是否还有其他进程占用显存

rayhsw commented on issue HswOAuth/llm_course#582 2025-02-26 18:07:33 +08:00
【求助帖】2024年9月24号基于lamafactory 的模型微调训练

请参考教案安装命令行工具,不要使用windows自带的CMD工具。https://www.yuque.com/hkutangyu/di80sc/ui2g14g7tc6qww2x?singleDoc# 《中文llama3仿openai api实战》 密码:kbvc…

rayhsw commented on issue HswOAuth/llm_course#572 2025-02-24 15:05:44 +08:00
【求助帖】17-Chinese LLaMA Alpaca系列模型OpenAI API调用实现-25.1.21

我们一个问题一个问题解决,首先您需要有一台Linux主机,分两种情况:

  1. 你有linux物理机并且带有3090显卡(wsl显卡直通也行),那么可以跟…
rayhsw commented on issue HswOAuth/llm_share#79 2025-02-24 14:37:23 +08:00
【基础认知问题】汇视威AI训练平台-算法管理
  1. 算法管理里的“公共算法”背后实质是一个容器镜像,封装了不通算法的镜像;
  2. 其他平台的使用方法也很类似;
  3. 是的,你的理解是对的;
rayhsw commented on issue HswOAuth/llm_course#574 2025-02-21 18:18:05 +08:00
【求助帖】我在微调大模型的时候,经常报错,导致微调训练报错,需要怎么处理哇

GPU的显存没有释放。是不是其他应用占用,或者llama-factory的chat模块没有释放。

rayhsw commented on issue HswOAuth/llm_course#573 2025-02-21 18:17:10 +08:00
远程镜像怎么用?

是的,但是镜像要确保不是私有的。

rayhsw commented on issue HswOAuth/llm_course#572 2025-02-21 18:15:29 +08:00
【求助帖】17-Chinese LLaMA Alpaca系列模型OpenAI API调用实现-25.1.21

我们一个问题一个问题解决,首先您需要有一台Linux主机,分两种情况:

  1. 你有linux物理机并且带有3090显卡(wsl显卡直通也行),那么可以跟随老师…
rayhsw commented on issue HswOAuth/llm_course#543 2025-02-18 15:45:07 +08:00
问题贴--llm-factory课,重新启动后输入版本查看命令提示如下错误

似乎是没有激活虚拟换,我看到你的命令行开头是(base)环境,不是llama-factory的环境。是否使用conda activate 激活了虚拟环境?

rayhsw commented on issue HswOAuth/llm_course#534 2025-02-17 18:25:59 +08:00
【求助贴】2406-课程18-Ray老师,oneapi docker compose无法成功启动(gpu,cpu服务运行均成功)

oneapi不是在autodl启动,需要在自己的服务器上(不需要显卡)安装了docker和docker compose后启动。

谢谢老师。明白了,不过我没有自己的服务器…

rayhsw commented on issue HswOAuth/llm_course#555 2025-02-17 18:24:47 +08:00
deepseek-r1部署问题

可以参考下面的图: image

rayhsw commented on issue HswOAuth/llm_course#538 2025-02-14 16:47:54 +08:00
【求助贴】提示词工程-多机多卡微调课程,根据课程步骤创建NoteBook,一直处在等待中,求助,另有问题求解

根据课程步骤做实验,就卡死在了第一步,一直等待中,不能变成运行中

相关问题:模型训练和训练管理有什么关系,又是怎么关联起来的,…

rayhsw commented on issue HswOAuth/llm_course#546 2025-02-14 16:41:56 +08:00
【求助帖】25.1.21-17-Chinese LLaMA Alpaca系列模型OpenAI API调用实现

可以将conda删除后重装,然后在下面的步骤中,选择yes。 image

rayhsw commented on issue HswOAuth/llm_course#544 2025-02-14 16:40:26 +08:00
【求助帖】基于LLaMA-Factory的模型微调训练 训练一次后就出错

应该是没有释放模型。

rayhsw commented on issue HswOAuth/llm_course#543 2025-02-14 16:39:56 +08:00
问题贴--llm-factory课,重新启动后输入版本查看命令提示如下错误

是否有按课件一步一步创建虚拟环境,安装依赖。看起来是依赖包未正确安装,可以考虑将整个操作过程录屏,供老师参考排查。

rayhsw commented on issue HswOAuth/llm_course#542 2025-02-14 16:37:56 +08:00
【求助贴】:day17-私有化LLM仿OpenAI API接口的高可用工程实践

oneapi不能在autodl部署,需要在本地物理机部署。因为autodl本身是基于容器的,不能在容器内再安装容器。

rayhsw commented on issue HswOAuth/llm_course#540 2025-02-14 16:36:48 +08:00
17课,25.1.21;云服务器llama3模型部署错误

nextchat的机器上,是否已经打隧道?如果已经打隧道,nextchat里面应该填入http://127.0.0.1:3578 另外,最好端口和老师教案一样,等全流程跑通以后,再…

rayhsw commented on issue HswOAuth/llm_course#539 2025-02-14 16:33:58 +08:00
【求助贴】 19-大模型初探-基于LLaMA-Factory的模型微调训练-25.2.7 #537

请具体贴出错误。您上传的图片无法查看。

rayhsw commented on issue HswOAuth/llm_course#537 2025-02-14 16:28:51 +08:00
【求助贴】 19-大模型初探-基于LLaMA-Factory的模型微调训练-25.2.7

ConnectionError: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /api/models/bert-base-uncased/tree/main?recursive=True&expand=False (Caused…