关于新闻做rag agent的处理 #535
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#535
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
老师好!我有一个需求:数据是csv的汽车新闻数据,里面有日期、来源、标题、内容四个列,我现在想用这个数据来做知识库问答系统,包括rag和agent,我现在数据不知道要如何处理,保存为什么什么样的格式,请老师给一个流程。
数据准备 (CSV 数据处理):
加载 & 理解: 读取 CSV 数据,检查数据质量 (缺失、重复等)。
数据清洗 (可选): 处理缺失值、重复值,统一日期格式,进行基础文本清洗。
格式化 & 保存:
RAG: 转换为 Document 对象 (内容+元数据),可选择向量化并存入向量数据库。
Agent: 转换为结构化数据 (JSON) 或构建知识图谱 (可选)。
构建 RAG 系统 (检索增强生成):
向量化: 使用 Embedding 模型将文档和问题向量化。
检索: 根据问题向量,在向量数据库中检索相关文档。
Prompt 构建: 将检索到的文档作为上下文,构建 Prompt。
LLM 生成答案: 使用 LLM 模型根据 Prompt 生成答案。
构建 Agent 系统 (智能体):
数据准备: 准备结构化数据或知识图谱。
定义工具: 创建 Agent 可调用的工具 (数据查询、信息检索等)。
构建 Agent: 使用 Agent 框架构建 Agent,使其具备意图理解、工具选择、信息整合和答案生成能力。
工具选择 (框架 & 数据库):
RAG 框架: LangChain, LlamaIndex, Haystack
Agent 框架: LangChain Agents, Autogen
向量数据库: Chroma, FAISS, Pinecone, Weaviate, Milvus
Embedding 模型: OpenAI Embeddings, Sentence Transformers
LLM 模型: OpenAI 模型, 开源 LLM (Llama 2, Mistral, DeepSeek-V2 等)