物理机运行微调测试理解 #59

New Issue

12390900721cs · 2024-09-11T16:24:40+08:00

12390900721cs commented

2024-09-11 16:24:40 +08:00

经过一系列尝试后发现本电脑的GPU与容器并不兼容（检测到NVIDIA NVIDIA GeForce RTX 4050笔记本电脑GPU，此版本的容器尚不支持该GPU），一开始想继续硬着头皮做，后续出现一系列问题，遂止。这里只能对着现有的课件中的代码以及运行测试结果进行分析和理解。

模型下载--Qwen1.5-0.5B-Chat（ Qwen 系列模型中的一个变体，基于大规模预训练的语言模型。）

Qwen（全称 "Quantum Words Enhanced Network" 或 "全文"）是一种大规模语言模型（LLM）。Qwen 系列通常是基于 Transformer 架构的预训练语言模型，旨在处理各种自然语言处理（NLP）任务，比如文本生成、对话、问答、翻译等。Qwen 模型的设计灵感可能来自一些最新的模型（如 GPT-3、GPT-4 或者 LLaMA 等），它们在处理大量文本数据的基础上，通过自回归的方式进行文本生成。
1.5-0.5B指的是模型规模。模型有约 0.5B（5亿）个参数，这相对于一些大型语言模型（如 GPT-3 的 1750 亿参数）来说，是一个较小的模型版本。这样的参数量适合在资源有限的设备上运行，可能在准确性和推理速度之间做了一些权衡，适合需要低延迟或者低功耗的应用场景。
应用场景：Chat。这个模型的变体名字中包含 "Chat"，表明它主要设计用于对话生成任务。类似于 ChatGPT、Bard 等模型，Qwen1.5-0.5B-Chat 应该能够理解并生成自然语言对话。

数据下载--tatsu-lab/alpaca 数据集
该数据集是一个知名的开源数据集，最初由 Stanford Alpaca 项目发布，用于训练小型、大规模语言模型，如 LLaMA（Large Language Model Meta AI）的微调。这个数据集是由 Stanford AI 实验室基于 OpenAI 的 GPT 模型生成的，目的是为模型提供更多可用的指令式数据，从而改进指令跟随能力。这个数据集通过 GPT-3 的 API 生成，模拟了类似 InstructGPT 的指令格式，目的在于微调 LLaMA 使其能够更好地理解和执行人类语言中的命令和指令。
Alpaca 数据集由大约 52,000 个指令样本组成，这些样本覆盖了各种指令类型。每条数据样本包含：

指令（instruction）：告诉模型要执行的任务。
输入（input）：如果指令需要额外的上下文或信息，这部分会包含相应的输入；如果指令是独立的，这部分可能为空。
输出（output）：模型根据指令和输入生成的期望回答。

算法下载及微调
mkdir -p /userhome/xtuner-workdir NPROC_PER_NODE=1 xtuner train qwen1_5_0_5b_chat_full_alpaca_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3_offload
这个命令是在使用 xtuner 工具进行深度学习模型的训练，具体地是在运行一个名为 qwen1_5_0_5b_chat_full_alpaca_e3_copy.py 的训练脚本，并指定了一些重要参数。
3.1 mkdir -p /userhome/xtuner-workdir
这条命令用于创建一个目录 /userhome/xtuner-workdir，用来存放训练过程中的工作文件。如果目录已经存在，-p 参数会确保不会报错。
3.2 NPROC_PER_NODE=1
这是设置训练过程中使用的每个节点上的进程数。这里指定 NPROC_PER_NODE=1，意味着在训练时每个计算节点只运行一个进程。这个参数通常用于分布式训练来控制并行的进程数量。
3.3 xtuner train qwen1_5_0_5b_chat_full_alpaca_e3_copy.py
xtuner train：xtuner 是一个模型调优工具，train 命令表示开始进行训练。
qwen1_5_0_5b_chat_full_alpaca_e3_copy.py：这是训练的 Python 脚本，里面包含了训练的配置、模型架构以及数据处理逻辑。
3.4 --work-dir /userhome/xtuner-workdir
这个选项指定了工作目录，即训练过程中产生的中间文件、日志、模型检查点等都会存储在 /userhome/xtuner-workdir 目录下。
3.5 --deepspeed deepspeed_zero3_offload
deepspeed_zero3_offload：这是 DeepSpeed 的配置文件或配置名称。zero3 是 DeepSpeed 的一个优化策略，称为 "ZeRO-3"，可以极大地减少 GPU 显存的使用。而 offload 通常指的是将部分计算或存储任务从 GPU 内存转移到 CPU 内存或磁盘上，从而进一步减少显存占用。这种策略非常适合在有限的 GPU 资源下训练超大模型。
运行模型部署
这里是使用 FastChat 部署一个支持 OpenAI API 的模型服务，其中包括以下几个步骤：

启动 FastChat Controller
python -m fastchat.serve.controller --host 0.0.0.0 这个命令启动了 FastChat 的控制器服务，--host 0.0.0.0 意味着允许从外部访问此服务。控制器负责协调多个模型工作进程。
启动模型工作进程
python -m fastchat.serve.model_worker --model-path /dataset/Qwen1.5-0.5B-Chat/ --host 0.0.0.0 --num-gpus 1 --max-gpu-memory 20GiB 此命令将加载 Qwen1.5-0.5B-Chat 模型并运行模型的工作进程。
--model-path：模型的路径，此处为 /dataset/Qwen1.5-0.5B-Chat/。
--num-gpus：使用 1 张 GPU。
--max-gpu-memory：将 GPU 内存限制为 20GB，以避免超出显存限制。
启动 OpenAI API 兼容服务器
python -m fastchat.serve.openai_api_server --host 0.0.0.0 此命令启动一个兼容 OpenAI API 的服务，允许你通过 OpenAI 的 API 接口与部署的模型交互。--host 0.0.0.0 表示外部可以访问该服务
发送请求
最后是用curl 命令发送一个 API 请求给本地服务器。

通过这些步骤，即可完成将 Qwen1.5-0.5B-Chat 模型作为一个 OpenAI API 服务运行，可以通过标准 API 请求与模型进行文本生成的交互。这种方式非常适合在本地或自定义服务器上测试和部署大语言模型。

简而言之：
Qwen/Qwen1.5-0.5B-Chat 是一个已经经过预训练的大模型。预训练过程中，它通过大量的通用数据学习了语言的基本规律和知识。
这里使用 xtuner 和脚本（qwen1_5_0_5b_chat_full_alpaca_e3_copy.py）对这个预训练模型进行微调。这个微调的目的是使模型更好地适应提供的新数据集（如 alpaca 数据集）和特定任务。
在微调过程中，脚本中定义的参数（如学习率、优化器等）和 deepspeed 技术（如零冗余优化）帮助优化训练过程，以提升模型在新任务上的表现。

经过一系列尝试后发现本电脑的GPU与容器并不兼容（检测到NVIDIA NVIDIA GeForce RTX 4050笔记本电脑GPU，此版本的容器尚不支持该GPU），一开始想继续硬着头皮做，后续出现一系列问题，遂止。这里只能对着现有的课件中的代码以及运行测试结果进行分析和理解。 ![5621b8c7068f76526526f6472a89f44.png](/attachments/73c71220-b799-4aa8-a070-ee25694b8fa1) 1. 模型下载--Qwen1.5-0.5B-Chat（ Qwen 系列模型中的一个变体，基于大规模预训练的语言模型。） - Qwen（全称 "Quantum Words Enhanced Network" 或 "全文"）是一种大规模语言模型（LLM）。Qwen 系列通常是基于 Transformer 架构的预训练语言模型，旨在处理各种自然语言处理（NLP）任务，比如文本生成、对话、问答、翻译等。Qwen 模型的设计灵感可能来自一些最新的模型（如 GPT-3、GPT-4 或者 LLaMA 等），它们在处理大量文本数据的基础上，通过自回归的方式进行文本生成。 - 1.5-0.5B指的是模型规模。模型有约 0.5B（5亿）个参数，这相对于一些大型语言模型（如 GPT-3 的 1750 亿参数）来说，是一个较小的模型版本。这样的参数量适合在资源有限的设备上运行，可能在准确性和推理速度之间做了一些权衡，适合需要低延迟或者低功耗的应用场景。 - 应用场景：Chat。这个模型的变体名字中包含 "Chat"，表明它主要设计用于对话生成任务。类似于 ChatGPT、Bard 等模型，Qwen1.5-0.5B-Chat 应该能够理解并生成自然语言对话。 2. 数据下载--tatsu-lab/alpaca 数据集该数据集是一个知名的开源数据集，最初由 Stanford Alpaca 项目发布，用于训练小型、大规模语言模型，如 LLaMA（Large Language Model Meta AI）的微调。这个数据集是由 Stanford AI 实验室基于 OpenAI 的 GPT 模型生成的，目的是为模型提供更多可用的指令式数据，从而改进指令跟随能力。这个数据集通过 GPT-3 的 API 生成，模拟了类似 InstructGPT 的指令格式，目的在于微调 LLaMA 使其能够更好地理解和执行人类语言中的命令和指令。 Alpaca 数据集由大约 52,000 个指令样本组成，这些样本覆盖了各种指令类型。每条数据样本包含： - 指令（instruction）：告诉模型要执行的任务。 - 输入（input）：如果指令需要额外的上下文或信息，这部分会包含相应的输入；如果指令是独立的，这部分可能为空。 - 输出（output）：模型根据指令和输入生成的期望回答。 3. 算法下载及微调 `mkdir -p /userhome/xtuner-workdir NPROC_PER_NODE=1 xtuner train qwen1_5_0_5b_chat_full_alpaca_e3_copy.py --work-dir /userhome/xtuner-workdir --deepspeed deepspeed_zero3_offload` 这个命令是在使用 xtuner 工具进行深度学习模型的训练，具体地是在运行一个名为 qwen1_5_0_5b_chat_full_alpaca_e3_copy.py 的训练脚本，并指定了一些重要参数。 3.1 mkdir -p /userhome/xtuner-workdir 这条命令用于创建一个目录 /userhome/xtuner-workdir，用来存放训练过程中的工作文件。如果目录已经存在，-p 参数会确保不会报错。 3.2 NPROC_PER_NODE=1 这是设置训练过程中使用的每个节点上的进程数。这里指定 NPROC_PER_NODE=1，意味着在训练时每个计算节点只运行一个进程。这个参数通常用于分布式训练来控制并行的进程数量。 3.3 xtuner train qwen1_5_0_5b_chat_full_alpaca_e3_copy.py xtuner train：xtuner 是一个模型调优工具，train 命令表示开始进行训练。 qwen1_5_0_5b_chat_full_alpaca_e3_copy.py：这是训练的 Python 脚本，里面包含了训练的配置、模型架构以及数据处理逻辑。 3.4 --work-dir /userhome/xtuner-workdir 这个选项指定了工作目录，即训练过程中产生的中间文件、日志、模型检查点等都会存储在 /userhome/xtuner-workdir 目录下。 3.5 --deepspeed deepspeed_zero3_offload deepspeed_zero3_offload：这是 DeepSpeed 的配置文件或配置名称。zero3 是 DeepSpeed 的一个优化策略，称为 "ZeRO-3"，可以极大地减少 GPU 显存的使用。而 offload 通常指的是将部分计算或存储任务从 GPU 内存转移到 CPU 内存或磁盘上，从而进一步减少显存占用。这种策略非常适合在有限的 GPU 资源下训练超大模型。 4. 运行模型部署这里是使用 FastChat 部署一个支持 OpenAI API 的模型服务，其中包括以下几个步骤： - 启动 FastChat Controller `python -m fastchat.serve.controller --host 0.0.0.0 `这个命令启动了 FastChat 的控制器服务，--host 0.0.0.0 意味着允许从外部访问此服务。控制器负责协调多个模型工作进程。 - 启动模型工作进程 `python -m fastchat.serve.model_worker --model-path /dataset/Qwen1.5-0.5B-Chat/ --host 0.0.0.0 --num-gpus 1 --max-gpu-memory 20GiB `此命令将加载 Qwen1.5-0.5B-Chat 模型并运行模型的工作进程。 `--model-path`：模型的路径，此处为 /dataset/Qwen1.5-0.5B-Chat/。 `--num-gpus`：使用 1 张 GPU。 `--max-gpu-memory`：将 GPU 内存限制为 20GB，以避免超出显存限制。 - 启动 OpenAI API 兼容服务器 `python -m fastchat.serve.openai_api_server --host 0.0.0.0 `此命令启动一个兼容 OpenAI API 的服务，允许你通过 OpenAI 的 API 接口与部署的模型交互。`--host 0.0.0.0 `表示外部可以访问该服务 - 发送请求最后是用curl 命令发送一个 API 请求给本地服务器。通过这些步骤，即可完成将 Qwen1.5-0.5B-Chat 模型作为一个 OpenAI API 服务运行，可以通过标准 API 请求与模型进行文本生成的交互。这种方式非常适合在本地或自定义服务器上测试和部署大语言模型。简而言之： Qwen/Qwen1.5-0.5B-Chat 是一个已经经过预训练的大模型。预训练过程中，它通过大量的通用数据学习了语言的基本规律和知识。这里使用 xtuner 和脚本（qwen1_5_0_5b_chat_full_alpaca_e3_copy.py）对这个预训练模型进行微调。这个微调的目的是使模型更好地适应提供的新数据集（如 alpaca 数据集）和特定任务。在微调过程中，脚本中定义的参数（如学习率、优化器等）和 deepspeed 技术（如零冗余优化）帮助优化训练过程，以提升模型在新任务上的表现。

5621b8c7068f76526526f6472a89f44.png

82 KiB

Sign in to join this conversation.