请问Milvus向量数据库,合适用来放编程代码方面的嘛?还是有其他更合适? #581

Open
opened 2025-02-24 11:54:08 +08:00 by carrotzizi · 1 comment

打算将公司已有代码工程向量化存库,请问Milvus向量数据库,合适用来放编程代码方面的嘛?还是有其他更合适。

这两个方案都可以,对于企业来说最大的区别主要是两种方案适用的企业知识库规模:
方案1中使用PostgreSQL主要适合中小规模知识库(千万级文档以下),方案2中使用Milvus + Elasticsearch可以支持超大规模知识库(亿级文档)。
另外方案1中更加适合中文,其中BGE是专为中文优化的Embedding模型,中文效果要好于方案2中的OpenAI text-embedding。
对于数据采集Apache NiFi更加专业持复杂的数据流设计和实时数据处理但是有比较高的学习和开发成本。
对于文档处理,FastGPT基本上属于是开箱即用,开发成本较低,但是LangChain更加灵活,开发的成本相应较高。
对于生成优化方面这两种都可以,主要取决于使用什么大模型来进行生成优化。

Originally posted by @linhui in #550 (comment)

打算将公司已有代码工程向量化存库,请问Milvus向量数据库,合适用来放编程代码方面的嘛?还是有其他更合适。 这两个方案都可以,对于企业来说最大的区别主要是两种方案适用的企业知识库规模: 方案1中使用PostgreSQL主要适合中小规模知识库(千万级文档以下),方案2中使用Milvus + Elasticsearch可以支持超大规模知识库(亿级文档)。 另外方案1中更加适合中文,其中BGE是专为中文优化的Embedding模型,中文效果要好于方案2中的OpenAI text-embedding。 对于数据采集Apache NiFi更加专业持复杂的数据流设计和实时数据处理但是有比较高的学习和开发成本。 对于文档处理,FastGPT基本上属于是开箱即用,开发成本较低,但是LangChain更加灵活,开发的成本相应较高。 对于生成优化方面这两种都可以,主要取决于使用什么大模型来进行生成优化。 _Originally posted by @linhui in https://hsw-git.huishiwei.cn/HswOAuth/llm_course/issues/550#issuecomment-1179_

可以用来放代码的,因为代码可以转成字符串格式,是可以把代码放在milvus,可以参考这个链接:https://milvus.io/docs/zh/string.md,但是字符串的量一般比较大,可以考虑放在其他数据库中,比如mongdb(fastgpt就是将文档都放在mongdb)

可以用来放代码的,因为代码可以转成字符串格式,是可以把代码放在milvus,可以参考这个链接:https://milvus.io/docs/zh/string.md,但是字符串的量一般比较大,可以考虑放在其他数据库中,比如mongdb(fastgpt就是将文档都放在mongdb)
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#581
No description provided.