如何用大模型做一个工具,提取文本中的“地理信息” #593

Open
opened 2025-03-04 08:27:42 +08:00 by Aigiser · 1 comment

各位大神,有个问题请教一下:有一个文本数据(如,txt格式,100万字),里面有大量的地理信息(如地名、方位、方向、距离、高度等),我想用开源大模型(如deepseek)来提取这些地理信息,能否给我一个又经济、又靠谱的方案?最好能做出一个工具,用于批量提取信息。

各位大神,有个问题请教一下:有一个文本数据(如,txt格式,100万字),里面有大量的地理信息(如地名、方位、方向、距离、高度等),我想用开源大模型(如deepseek)来提取这些地理信息,能否给我一个又经济、又靠谱的方案?最好能做出一个工具,用于批量提取信息。

可以将文本数据拆分成小数据,然后每个数据调用deepseek,加上prompt来提取。
参考prompt:
请从以下文本中提取地理信息,包括地名、方位、方向、距离和高度。

请以JSON格式返回结果,每个条目包含 'entity' (实体文本) 和 'type' (信息类型)。

信息类型包括:

  • 地名 (Place Name)
  • 方位 (Direction)
  • 方向 (Orientation)
  • 距离 (Distance)
  • 高度 (Altitude)

文本:[TEXT]

可以将文本数据拆分成小数据,然后每个数据调用deepseek,加上prompt来提取。 参考prompt: 请从以下文本中提取地理信息,包括地名、方位、方向、距离和高度。 请以JSON格式返回结果,每个条目包含 'entity' (实体文本) 和 'type' (信息类型)。 信息类型包括: - 地名 (Place Name) - 方位 (Direction) - 方向 (Orientation) - 距离 (Distance) - 高度 (Altitude) 文本:[TEXT]
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#593
No description provided.