【紧急求助帖】如何验证工作流处理之后数据的准确性？ #682

New Issue

guoyue · 2025-04-08T10:09:35+08:00

guoyue commented

2025-04-08 10:09:35 +08:00

背景：我创建了一个工作流去回答各种问题，但是这些问题的回答是通过工作流里面的知识库外加sql 或者 api查询之后，整理在一起回复的。目前经常使用的问题有100多个了，几乎每个都是需要使用不同的方式去查询的

问题：如何去批量测试问题答案的准确性呢？可以使用什么工具去批量测试呢？

背景：我创建了一个工作流去回答各种问题，但是这些问题的回答是通过工作流里面的知识库外加sql 或者 api查询之后，整理在一起回复的。目前经常使用的问题有100多个了，几乎每个都是需要使用不同的方式去查询的问题：如何去批量测试问题答案的准确性呢？可以使用什么工具去批量测试呢？

12019701659cs commented

2025-04-08 18:41:34 +08:00

可以参考：

准备测试集（标准问题+标准答案）
建一个测试集文件（如Excel、CSV、JSON、数据库等），每条数据包含：问题文本、标准答案（或可接受的答案）、查询方式（是否SQL、是否API、是否只依赖知识库）；可选：预期的SQL语句、API参数
自动执行工作流，获取实际答案：构建一个批处理脚本/测试框架，用于对每条问题：输入工作流引擎、获取工作流生成的答案（如API返回值）、与标准答案对比（可用相似度/模糊匹配）
比对策略：文本相似度（如 Jaccard、Levenshtein、Cosine 相似度、Embedding）；精确匹配（对于结构化答案如金额、日期）；自定义比对逻辑（数值误差容忍、单位转换、别名识别）

工具：LangChain/TestChain、Postman + Newman、Python + pytest之类的

可以参考： 1. 准备测试集（标准问题+标准答案）建一个测试集文件（如Excel、CSV、JSON、数据库等），每条数据包含：问题文本、标准答案（或可接受的答案）、查询方式（是否SQL、是否API、是否只依赖知识库）；可选：预期的SQL语句、API参数 2. 自动执行工作流，获取实际答案：构建一个批处理脚本/测试框架，用于对每条问题：输入工作流引擎、获取工作流生成的答案（如API返回值）、与标准答案对比（可用相似度/模糊匹配） 3. 比对策略：文本相似度（如 Jaccard、Levenshtein、Cosine 相似度、Embedding）；精确匹配（对于结构化答案如金额、日期）；自定义比对逻辑（数值误差容忍、单位转换、别名识别）工具：LangChain/TestChain、Postman + Newman、Python + pytest之类的

Sign in to join this conversation.