该如何评估一个开源大模型的效果好坏?有没有一套标准的流程或者工具可以评估一些指标 #500

Open
opened 2025-02-06 00:27:16 +08:00 by 21703687491cs · 2 comments

目前我想使用百川的医疗大模型Baichuan-M1-14B-Instruct,这个模型是用医疗数据训练出来的,所以我如何评估这个医疗模型的效果怎么样?因为不是自己微调过的模型,没有验证集这种有标准答案来做测试,就对比不出来模型回答的答案的准确率和召回率,所以该如何直接评估这种开源的大模型呢?并且也想要知道评估自己微调好的模型的流程或者工具,如何准确的计算出准确率和召回率,F1score这些指标,麻烦老师能给一套流程嘛?谢谢老师!

目前我想使用百川的医疗大模型Baichuan-M1-14B-Instruct,这个模型是用医疗数据训练出来的,所以我如何评估这个医疗模型的效果怎么样?因为不是自己微调过的模型,没有验证集这种有标准答案来做测试,就对比不出来模型回答的答案的准确率和召回率,所以该如何直接评估这种开源的大模型呢?并且也想要知道评估自己微调好的模型的流程或者工具,如何准确的计算出准确率和召回率,F1score这些指标,麻烦老师能给一套流程嘛?谢谢老师!

目前还没有一套绝对统一和标准的评估流程或工具。
目前的评估工具可以参考下:
OpenAI Evals:GitHub - openai/evals;OpenAI 提供的开源评估框架,用于评估 LLMs 和 LLM 系统。
VLMEvalKit:GitHub - open-compass/VLMEvalKit;开源的视觉-语言模型 (LVLM) 评估工具包,支持评估多模态模型。
LM-Eval-Harness:GitHub - EleutherAI/lm-evaluation-harness;EleutherAI 提供的评估框架,用于评估语言模型在各种任务上的表现。

如果是医疗模型的话,可以测试以下的数据集来进行评估。
PubMedQA: PubMedQA - 生物医学研究文献的问答数据集。
MedQA: MedQA (Hugging Face Datasets) - 包含美国医疗执照考试题目的数据集。
MMLU (Medical subset): MMLU benchmark - MMLU 基准测试的医学相关子集。
MedMCQA: MedMCQA - 大规模多选题医学问答数据集。

目前还没有一套绝对统一和标准的评估流程或工具。 目前的评估工具可以参考下: OpenAI Evals:GitHub - openai/evals;OpenAI 提供的开源评估框架,用于评估 LLMs 和 LLM 系统。 VLMEvalKit:GitHub - open-compass/VLMEvalKit;开源的视觉-语言模型 (LVLM) 评估工具包,支持评估多模态模型。 LM-Eval-Harness:GitHub - EleutherAI/lm-evaluation-harness;EleutherAI 提供的评估框架,用于评估语言模型在各种任务上的表现。 如果是医疗模型的话,可以测试以下的数据集来进行评估。 PubMedQA: PubMedQA - 生物医学研究文献的问答数据集。 MedQA: MedQA (Hugging Face Datasets) - 包含美国医疗执照考试题目的数据集。 MMLU (Medical subset): MMLU benchmark - MMLU 基准测试的医学相关子集。 MedMCQA: MedMCQA - 大规模多选题医学问答数据集。
Author

好的,谢谢老师

好的,谢谢老师
Sign in to join this conversation.
No Milestone
No project
No Assignees
2 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#500
No description provided.