目前在做企业级RAG技术框架选型,请教方案选型是否合理 #550

Open
opened 2025-02-15 10:43:41 +08:00 by carrotzizi · 1 comment

环节..............方案1.............................................................................方案2................................................说明
数据采集:Airbyte..........................................................................Apache NiFi....................................支持网盘API/数据中台接口自动化同步
文档处理:FastGPT内置模块 + Unstructured......................LangChain DocumentLoader..多格式解析与元数据提取
向量处理:HuggingFace BGE模型...........................................OpenAI text-embedding...........本地部署高精度中文向量模型
存储检索:FastGPT(集成MongoDB+PostgreSQL)......Milvus+Elasticsearch...................原生支持混合检索与权限控制
生成优化:FastGPT Prompt引擎 + vLLM..............................LangChain+Llama3......................内置低代码提示工程与模型加速

环节..............方案1.............................................................................方案2................................................说明 数据采集:Airbyte..........................................................................Apache NiFi....................................支持网盘API/数据中台接口自动化同步 文档处理:FastGPT内置模块 + Unstructured......................LangChain DocumentLoader..多格式解析与元数据提取 向量处理:HuggingFace BGE模型...........................................OpenAI text-embedding...........本地部署高精度中文向量模型 存储检索:FastGPT(集成MongoDB+PostgreSQL)......Milvus+Elasticsearch...................原生支持混合检索与权限控制 生成优化:FastGPT Prompt引擎 + vLLM..............................LangChain+Llama3......................内置低代码提示工程与模型加速

这两个方案都可以,对于企业来说最大的区别主要是两种方案适用的企业知识库规模:
方案1中使用PostgreSQL主要适合中小规模知识库(千万级文档以下),方案2中使用Milvus + Elasticsearch可以支持超大规模知识库(亿级文档)。
另外方案1中更加适合中文,其中BGE是专为中文优化的Embedding模型,中文效果要好于方案2中的OpenAI text-embedding。
对于数据采集Apache NiFi更加专业持复杂的数据流设计和实时数据处理但是有比较高的学习和开发成本。
对于文档处理,FastGPT基本上属于是开箱即用,开发成本较低,但是LangChain更加灵活,开发的成本相应较高。
对于生成优化方面这两种都可以,主要取决于使用什么大模型来进行生成优化。

这两个方案都可以,对于企业来说最大的区别主要是两种方案适用的企业知识库规模: 方案1中使用PostgreSQL主要适合中小规模知识库(千万级文档以下),方案2中使用Milvus + Elasticsearch可以支持超大规模知识库(亿级文档)。 另外方案1中更加适合中文,其中BGE是专为中文优化的Embedding模型,中文效果要好于方案2中的OpenAI text-embedding。 对于数据采集Apache NiFi更加专业持复杂的数据流设计和实时数据处理但是有比较高的学习和开发成本。 对于文档处理,FastGPT基本上属于是开箱即用,开发成本较低,但是LangChain更加灵活,开发的成本相应较高。 对于生成优化方面这两种都可以,主要取决于使用什么大模型来进行生成优化。
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#550
No description provided.