AGI-2404期-智能审稿机器人--多模态数据处理?-林希老师 #738

Closed
opened 2025-05-28 13:03:33 +08:00 by 11735802362cs · 1 comment

如果目标稿件PDF中,含有较多的图片以及类似柱状数据图/数据表格等,这类数据如何处理呢? 是否有较为成熟的方案可供参考

如果目标稿件PDF中,含有较多的图片以及类似柱状数据图/数据表格等,这类数据如何处理呢? 是否有较为成熟的方案可供参考
11735802362cs changed title from AGI-2404期-智能审稿机器人--课程代码在哪里?-林希老师 to AGI-2404期-智能审稿机器人--多模态数据处理?-林希老师 2025-05-28 14:11:27 +08:00

如果是高频次处理这类复杂PDF文件的需求,可以考虑使用一些商业API

Docparser:一个基于云的API,能够提取PDF中的数据表格、文本、图表等内容。

Tabula:一个开源工具,专门用于从PDF中提取表格数据。

如果是高频次处理这类复杂PDF文件的需求,可以考虑使用一些商业API Docparser:一个基于云的API,能够提取PDF中的数据表格、文本、图表等内容。 Tabula:一个开源工具,专门用于从PDF中提取表格数据。
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#738
No description provided.