关于DeepSeek蒸馏公司的模型 #545

Open
opened 2025-02-13 21:47:00 +08:00 by 12754933808cs · 1 comment

老师,我目前通过Ollama部署了一个DeepSeek R1-32b模型,有一些公司内部文档数据,想用自己资料数据通过这个蒸馏一个小模型,我不太会做蒸馏模型和微调模型,老师能给一些思路或建议吗?

老师,我目前通过Ollama部署了一个DeepSeek R1-32b模型,有一些公司内部文档数据,想用自己资料数据通过这个蒸馏一个小模型,我不太会做蒸馏模型和微调模型,老师能给一些思路或建议吗?

首先ollama本身不支持微调,如果需要微调,可以学习下llama factory之类的微调架构,通过sft进行微调。

首先ollama本身不支持微调,如果需要微调,可以学习下llama factory之类的微调架构,通过sft进行微调。
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#545
No description provided.