【求助帖】我目前对pdf里的文字以及图片进行处理但是现在出现文字丢失以及图片模糊识别不准的情况，想请教下该如何优化才能准确识别呢，目前采用ocr，用paddle做的 #441

New Issue

18234414483 · 2024-12-23T11:42:19+08:00

18234414483 commented

No description provided.

18234414483 changed title from ~~【求助帖】我目前对pdf~~ to 【求助帖】我目前对pdf里的文字以及图片进行处理但是现在出现文字丢失以及图片模糊识别不准的情况，想请教下该如何优化才能准确识别呢，目前采用ocr，用paddle做的

2024-12-23 11:43:27 +08:00

12019701659cs commented

1. PDF 预处理: 可以提高分辨率，去除噪点和背景，倾斜校正；也可以将 PDF 分成不同的段落、表格和图片区域，然后分别进行处理。 2. PaddleOCR应该有专门的模型，针对不同的场景，可以去看看他的模型list。

18234414483 commented

嗯嗯现在处理好了，但是如果是存储向量库的话，我是单分出一个集合来存储好一点，还是直接添加存储到我之前构建的metadate向量库中呢？想咨询下思路

12019701659cs commented

主要跟你使用的数据有关系，如果向量数据量非常大，或者大部分查询只涉及向量相似度搜索，而不需要频繁访问元数据，或者对查询性能要求高，建议使用单独的向量集合。如果查询需要同时返回向量和相关的元数据，可以考虑将向量添加到现有的元数据向量库中。

Sign in to join this conversation.

No Label

No Milestone

No project

No Assignees

2 Participants

Notifications

Due Date

The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#441

【求助帖】我目前对pdf里的文字以及图片进行处理 但是现在出现文字丢失 以及图片模糊识别不准的情况，想请教下 该如何优化才能准确识别呢，目前采用ocr，用paddle做的 #441