大模型本地开发环境搭建(一) #100
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#100
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
这里主要是对讲义中本地开发环境的搭建过程做一次梳理和总结。
4.1 启动镜像并进入容器。(镜像是只读的,容器则是运行时使用的实体)
4.2 将GPU挂载到容器。
4.3 将需要使用的本地目录挂载到容器的对应目录,方便后续在容器中对数据进行操作。
8.1 下载模型:qwen0.5B。这是一个已经经过预训练的大模型。
8.2 数据下载: tatsu-lab/alpaca。用特殊的数据集,根据不同的专业领域进行针对性的训练。
8.3 算法下载:.py文件,这里是一个python脚本,应该是汇视威算法工作人员编写,写好了后续利用专业领域数据集对预训练模型微调的代码。
9.1 用xtuner工具进行模型预训练。该工具是专门用于优化和训练大语言模型的工具。
9.2 此处还指定了一些参数,如创建目录用来记录训练的过程,存储训练结果、日志文件等;还包括指定节点上的运行的进程数等。
9.3 启用DeepSpeed训练库, 能够加速大规模模型的训练,并优化显存使用。并在此基础上使用 Zero3 Offload,用于极大优化内存使用,尤其适用于训练超大规模的模型。
启动 FastChat 服务器并进行对话生成。FastChat 是一个开源的对话系统框架,旨在简化和优化大规模对话模型的训练、部署和使用。它提供了一种高效的方式来管理和运行对话生成模型,使得开发者可以更容易地实现和测试聊天机器人和对话系统。
感觉这个fastchat有点类似于langchain?回头可以研究研究,专门写一篇。