【求助贴】目前搭建了一个 元数据RAG向量库,但是只对word纯文本做了转向量处理,现在想对表格内容做处理,要如何处理合适嘞,后续也会处理pdf数据, #430

Open
opened 2024-12-20 10:51:12 +08:00 by 18234414483 · 2 comments
No description provided.
Author

目前是想到了 表格和图表我可以用多模态转为纯文本存储,ocr+多模态的方式,但是 想要一些更具体性的宝贵意见

目前是想到了 表格和图表我可以用多模态转为纯文本存储,ocr+多模态的方式,但是 想要一些更具体性的宝贵意见

可以使用功能langchain作为基本方案,使用Unstructured处理图像文档,使用CSVLoader处理表格数据。可以参考langchain的官方文档https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/

可以使用功能langchain作为基本方案,使用Unstructured处理图像文档,使用CSVLoader处理表格数据。可以参考langchain的官方文档https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#430
No description provided.