该如何评估一个开源大模型的效果好坏？有没有一套标准的流程或者工具可以评估一些指标 #500

New Issue

21703687491cs · 2025-02-06T00:27:16+08:00

21703687491cs commented

2025-02-06 00:27:16 +08:00

目前我想使用百川的医疗大模型Baichuan-M1-14B-Instruct，这个模型是用医疗数据训练出来的，所以我如何评估这个医疗模型的效果怎么样？因为不是自己微调过的模型，没有验证集这种有标准答案来做测试，就对比不出来模型回答的答案的准确率和召回率，所以该如何直接评估这种开源的大模型呢？并且也想要知道评估自己微调好的模型的流程或者工具，如何准确的计算出准确率和召回率，F1score这些指标，麻烦老师能给一套流程嘛？谢谢老师！

12019701659cs commented

2025-02-06 16:06:54 +08:00

目前还没有一套绝对统一和标准的评估流程或工具。
目前的评估工具可以参考下：
OpenAI Evals：GitHub - openai/evals；OpenAI 提供的开源评估框架，用于评估 LLMs 和 LLM 系统。
VLMEvalKit：GitHub - open-compass/VLMEvalKit；开源的视觉-语言模型 (LVLM) 评估工具包，支持评估多模态模型。
LM-Eval-Harness：GitHub - EleutherAI/lm-evaluation-harness；EleutherAI 提供的评估框架，用于评估语言模型在各种任务上的表现。

如果是医疗模型的话，可以测试以下的数据集来进行评估。
PubMedQA: PubMedQA - 生物医学研究文献的问答数据集。
MedQA: MedQA (Hugging Face Datasets) - 包含美国医疗执照考试题目的数据集。
MMLU (Medical subset): MMLU benchmark - MMLU 基准测试的医学相关子集。
MedMCQA: MedMCQA - 大规模多选题医学问答数据集。

目前还没有一套绝对统一和标准的评估流程或工具。目前的评估工具可以参考下： OpenAI Evals：GitHub - openai/evals；OpenAI 提供的开源评估框架，用于评估 LLMs 和 LLM 系统。 VLMEvalKit：GitHub - open-compass/VLMEvalKit；开源的视觉-语言模型 (LVLM) 评估工具包，支持评估多模态模型。 LM-Eval-Harness：GitHub - EleutherAI/lm-evaluation-harness；EleutherAI 提供的评估框架，用于评估语言模型在各种任务上的表现。如果是医疗模型的话，可以测试以下的数据集来进行评估。 PubMedQA: PubMedQA - 生物医学研究文献的问答数据集。 MedQA: MedQA (Hugging Face Datasets) - 包含美国医疗执照考试题目的数据集。 MMLU (Medical subset): MMLU benchmark - MMLU 基准测试的医学相关子集。 MedMCQA: MedMCQA - 大规模多选题医学问答数据集。

21703687491cs commented

2025-02-06 22:25:39 +08:00

好的，谢谢老师

Sign in to join this conversation.