【求助帖】我目前对pdf里的文字以及图片进行处理 但是现在出现文字丢失 以及图片模糊识别不准的情况,想请教下 该如何优化才能准确识别呢,目前采用ocr,用paddle做的 #441
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#441
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
【求助帖】我目前对pdfto 【求助帖】我目前对pdf里的文字以及图片进行处理 但是现在出现文字丢失 以及图片模糊识别不准的情况,想请教下 该如何优化才能准确识别呢,目前采用ocr,用paddle做的嗯嗯 现在处理好了,但是如果是存储向量库的话,我是单分出一个集合来存储好一点,还是直接添加存储到我之前构建的metadate向量库中呢?想咨询下思路
主要跟你使用的数据有关系,如果向量数据量非常大,或者大部分查询只涉及向量相似度搜索,而不需要频繁访问元数据,或者对查询性能要求高,建议使用单独的向量集合。如果查询需要同时返回向量和相关的元数据,可以考虑将向量添加到现有的元数据向量库中。