【紧急求助帖】如何验证工作流处理之后数据的准确性? #682

Open
opened 2025-04-08 10:09:35 +08:00 by guoyue · 1 comment

背景:我创建了一个工作流去回答各种问题,但是这些问题的回答是通过工作流里面的知识库外加sql 或者 api查询之后,整理在一起回复的。目前经常使用的问题有100多个了,几乎每个都是需要使用不同的方式去查询的

问题:如何去批量测试问题答案的准确性呢?可以使用什么工具去批量测试呢?

背景:我创建了一个工作流去回答各种问题,但是这些问题的回答是通过工作流里面的知识库外加sql 或者 api查询之后,整理在一起回复的。目前经常使用的问题有100多个了,几乎每个都是需要使用不同的方式去查询的 问题:如何去批量测试问题答案的准确性呢?可以使用什么工具去批量测试呢?

可以参考:

  1. 准备测试集(标准问题+标准答案)
    建一个测试集文件(如Excel、CSV、JSON、数据库等),每条数据包含:问题文本、标准答案(或可接受的答案)、查询方式(是否SQL、是否API、是否只依赖知识库);可选:预期的SQL语句、API参数
  2. 自动执行工作流,获取实际答案:构建一个批处理脚本/测试框架,用于对每条问题:输入工作流引擎、获取工作流生成的答案(如API返回值)、与标准答案对比(可用相似度/模糊匹配)
  3. 比对策略:文本相似度(如 Jaccard、Levenshtein、Cosine 相似度、Embedding);精确匹配(对于结构化答案如金额、日期);自定义比对逻辑(数值误差容忍、单位转换、别名识别)

工具:LangChain/TestChain、Postman + Newman、Python + pytest之类的

可以参考: 1. 准备测试集(标准问题+标准答案) 建一个测试集文件(如Excel、CSV、JSON、数据库等),每条数据包含:问题文本、标准答案(或可接受的答案)、查询方式(是否SQL、是否API、是否只依赖知识库);可选:预期的SQL语句、API参数 2. 自动执行工作流,获取实际答案:构建一个批处理脚本/测试框架,用于对每条问题:输入工作流引擎、获取工作流生成的答案(如API返回值)、与标准答案对比(可用相似度/模糊匹配) 3. 比对策略:文本相似度(如 Jaccard、Levenshtein、Cosine 相似度、Embedding);精确匹配(对于结构化答案如金额、日期);自定义比对逻辑(数值误差容忍、单位转换、别名识别) 工具:LangChain/TestChain、Postman + Newman、Python + pytest之类的
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#682
No description provided.