关于新闻做rag agent的处理 #535

Open
opened 2025-02-12 20:01:36 +08:00 by llm · 1 comment

老师好!我有一个需求:数据是csv的汽车新闻数据,里面有日期、来源、标题、内容四个列,我现在想用这个数据来做知识库问答系统,包括rag和agent,我现在数据不知道要如何处理,保存为什么什么样的格式,请老师给一个流程。

老师好!我有一个需求:数据是csv的汽车新闻数据,里面有日期、来源、标题、内容四个列,我现在想用这个数据来做知识库问答系统,包括rag和agent,我现在数据不知道要如何处理,保存为什么什么样的格式,请老师给一个流程。
  1. 数据准备 (CSV 数据处理):
    加载 & 理解: 读取 CSV 数据,检查数据质量 (缺失、重复等)。
    数据清洗 (可选): 处理缺失值、重复值,统一日期格式,进行基础文本清洗。

  2. 格式化 & 保存:
    RAG: 转换为 Document 对象 (内容+元数据),可选择向量化并存入向量数据库。
    Agent: 转换为结构化数据 (JSON) 或构建知识图谱 (可选)。

  3. 构建 RAG 系统 (检索增强生成):
    向量化: 使用 Embedding 模型将文档和问题向量化。
    检索: 根据问题向量,在向量数据库中检索相关文档。
    Prompt 构建: 将检索到的文档作为上下文,构建 Prompt。
    LLM 生成答案: 使用 LLM 模型根据 Prompt 生成答案。

  4. 构建 Agent 系统 (智能体):
    数据准备: 准备结构化数据或知识图谱。
    定义工具: 创建 Agent 可调用的工具 (数据查询、信息检索等)。
    构建 Agent: 使用 Agent 框架构建 Agent,使其具备意图理解、工具选择、信息整合和答案生成能力。

  5. 工具选择 (框架 & 数据库):
    RAG 框架: LangChain, LlamaIndex, Haystack
    Agent 框架: LangChain Agents, Autogen
    向量数据库: Chroma, FAISS, Pinecone, Weaviate, Milvus
    Embedding 模型: OpenAI Embeddings, Sentence Transformers
    LLM 模型: OpenAI 模型, 开源 LLM (Llama 2, Mistral, DeepSeek-V2 等)

1. 数据准备 (CSV 数据处理): 加载 & 理解: 读取 CSV 数据,检查数据质量 (缺失、重复等)。 数据清洗 (可选): 处理缺失值、重复值,统一日期格式,进行基础文本清洗。 2. 格式化 & 保存: RAG: 转换为 Document 对象 (内容+元数据),可选择向量化并存入向量数据库。 Agent: 转换为结构化数据 (JSON) 或构建知识图谱 (可选)。 3. 构建 RAG 系统 (检索增强生成): 向量化: 使用 Embedding 模型将文档和问题向量化。 检索: 根据问题向量,在向量数据库中检索相关文档。 Prompt 构建: 将检索到的文档作为上下文,构建 Prompt。 LLM 生成答案: 使用 LLM 模型根据 Prompt 生成答案。 4. 构建 Agent 系统 (智能体): 数据准备: 准备结构化数据或知识图谱。 定义工具: 创建 Agent 可调用的工具 (数据查询、信息检索等)。 构建 Agent: 使用 Agent 框架构建 Agent,使其具备意图理解、工具选择、信息整合和答案生成能力。 5. 工具选择 (框架 & 数据库): RAG 框架: LangChain, LlamaIndex, Haystack Agent 框架: LangChain Agents, Autogen 向量数据库: Chroma, FAISS, Pinecone, Weaviate, Milvus Embedding 模型: OpenAI Embeddings, Sentence Transformers LLM 模型: OpenAI 模型, 开源 LLM (Llama 2, Mistral, DeepSeek-V2 等)
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#535
No description provided.