【求助帖】我目前对pdf里的文字以及图片进行处理 但是现在出现文字丢失 以及图片模糊识别不准的情况,想请教下 该如何优化才能准确识别呢,目前采用ocr,用paddle做的 #441

Open
opened 2024-12-23 11:42:19 +08:00 by 18234414483 · 3 comments
No description provided.
18234414483 changed title from 【求助帖】我目前对pdf to 【求助帖】我目前对pdf里的文字以及图片进行处理 但是现在出现文字丢失 以及图片模糊识别不准的情况,想请教下 该如何优化才能准确识别呢,目前采用ocr,用paddle做的 2024-12-23 11:43:27 +08:00
  1. PDF 预处理: 可以提高分辨率,去除噪点和背景,倾斜校正;也可以将 PDF 分成不同的段落、表格和图片区域,然后分别进行处理。
  2. PaddleOCR应该有专门的模型,针对不同的场景,可以去看看他的模型list。
1. PDF 预处理: 可以提高分辨率,去除噪点和背景,倾斜校正;也可以将 PDF 分成不同的段落、表格和图片区域,然后分别进行处理。 2. PaddleOCR应该有专门的模型,针对不同的场景,可以去看看他的模型list。
Author

嗯嗯 现在处理好了,但是如果是存储向量库的话,我是单分出一个集合来存储好一点,还是直接添加存储到我之前构建的metadate向量库中呢?想咨询下思路

嗯嗯 现在处理好了,但是如果是存储向量库的话,我是单分出一个集合来存储好一点,还是直接添加存储到我之前构建的metadate向量库中呢?想咨询下思路

主要跟你使用的数据有关系,如果向量数据量非常大,或者大部分查询只涉及向量相似度搜索,而不需要频繁访问元数据,或者对查询性能要求高,建议使用单独的向量集合。如果查询需要同时返回向量和相关的元数据,可以考虑将向量添加到现有的元数据向量库中。

主要跟你使用的数据有关系,如果向量数据量非常大,或者大部分查询只涉及向量相似度搜索,而不需要频繁访问元数据,或者对查询性能要求高,建议使用单独的向量集合。如果查询需要同时返回向量和相关的元数据,可以考虑将向量添加到现有的元数据向量库中。
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#441
No description provided.