LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day #85

New Issue

12019701659cs · 2024-09-13T19:15:41+08:00

12019701659cs commented

2024-09-13 19:15:41 +08:00

Paper: Paper, NeurIPS 2023 Datasets and Benchmarks Track (Spotlight)
code: https://github.com/microsoft/LLaVA-Med

LLaVA-Med

提出了一种cost-efficient的方法来训练视觉语言会话助手，用于回答生物医学图像的开放式研究问题。
Key Idea：从 PubMed Central 提取生物医学figure-caption数据集，然后使用 GPT-4 通过caption来self-instruct open-ended instruction-following data，然后使用a novel curriculum learning method来微调通用领域视觉语言模型。
使用8 A100，大约15小时训练。

数据搜集

搜集figure-caption数据

从 PMC-15M 数据集中采样了 600K 个医疗图像文本对（如何采样未知）。
PMC-15M：包含从 PubMed Central 的生物医学研究文章中提取的 1500 万对图形标题。它涵盖了多种生物医学图像类型，例如显微镜、放射线照相、组织学等。该数据集仅提供单个任务指令，即图像字幕。对于每对图像和标题，研究者采样一个问题，要求描述生物医学图像。使用（图像，标题，问题）三元组，创建单个指令跟随示例。根据标题的长度，采样的问题要么要求简洁地描述图像，要么要求详细描述。

生成Biomedical Instruction-Tuning Data

目的：使模型遵循多样化的指令。
方法：给出captions，使用GPT-4 来生成多轮对话中的指令和答案。这些指令旨在模拟用户可能对生物医学图像提出的查询。
给定图像标题，在提示中设计指令，要求 GPT-4 以一种语气生成多轮问题和答案，就好像它可以看到图像一样。
为了提供有关图像的更多上下文，还创建了一种提示，其中不仅包括标题，还包括原始 PubMed 论文中提到该图像的句子。
为了收集图像标题及其上下文，过滤 PMC-15M 以保留仅包含单个图的图像。从中，从五种最常见的成像方式中采样了 60K 个图像文本对：CXR（胸部 X 射线）、CT（计算机断层扫描）、MRI（磁共振成像）、组织病理学和大体（即宏观）病理学。

方法训练

采用LLaVA作为初始通用领域LM。

对于输入图像，使用预训练的 CLIP 视觉编码器 ViT-L/14，提取视觉特征。
使用一个简单的线性层将图像特征连接到词嵌入空间。

训练流程

Stage 1：Biomedical Concept Feature Alignment

图文对对齐。
给定语言指令和图像输入，要求模型预测原始标题。在训练中，保持视觉编码器和 LM 权重冻结，只更新projection matrix。

Stage 2：End-to-End Instruction-Tuning

保持视觉编码器权重冻结，并继续更新投影层和LM的预训练权重。
通过收集的生物医学语言图像指令遵循数据，微调模型来开发生物医学聊天机器人。

Fine-tuning to Downstream Datasets.

在三个生物医学 VQA 数据集上对 LLaVA-Med 进行微调。
给定生物医学图像作为上下文，提供多个自然语言问题，助手以自由格式文本回答封闭集和开放集问题，并在每个封闭集问题的提示中构建候选答案列表。

实验

LLaVA-Med 作为开放式生物医学视觉聊天机器人的性能如何？

构建包含 193 个新问题的评估数据集。从 PMC-15M 中随机选择了 50 个未见过的图像和标题对，并生成两种类型的问题：对话和详细描述。
利用 GPT-4 来量化模型回答问题的正确性。给定两个助手（候选 LMM 和 GPT-4）的回答、问题、图形标题和图形上下文，要求 GPT-4 对两个助手的回答的有用性、相关性、准确性和详细程度进行评分并给出 1 到 10 分的总体评分，评分越高表明整体表现越好。 GPT-4还被要求对评估提供全面的解释。
不同的训练数据：

60K-IM。自指令生成数据集的caption包含上下文描述。

60K。自指令生成数据集没有上下文描述。

10K。没有上下文描述的较小数据集。

LLaVA-Med 与标准基准上的现有方法相比如何？

VQA-RAD：包含由临床医生生成的关于放射影像（如X光、CT扫描、MRI等）的问题和答案对。
SLAKE：为医学视觉问答任务设计的高质量数据集，包含了丰富的医学影像和由专业医生提出的多样化问题。
PathVQA：专注于病理学图像，包括组织切片、细胞涂片等，并围绕这些图像提出了相关问题。

所有 LLaVA-Med 变体的性能均优于 LLaVA。虽然 LLaVA 或 Vicuna 的语言模型初始化差异很小，但 BioMed CLIP 的视觉编码器初始化略好于通用域 CLIP。
在 VQA-RAD 和 PathVQA 的封闭集问题上，LLaVA-Med 的微调性能高于有监督的 SoTA。这验证了 LLaVA-Med 在提供明确指示（例如，是或否）时遵循指示完成生物医学任务的强大能力。
对于开放集问题，LLaVA-Med 在 SLAKE 上实现了 SoTA，但其性能在其他数据集上受到限制。

Paper: [Paper, NeurIPS 2023 Datasets and Benchmarks Track (Spotlight)](https://arxiv.org/abs/2306.00890) code: https://github.com/microsoft/LLaVA-Med # LLaVA-Med 1. 提出了一种cost-efficient的方法来训练视觉语言会话助手，用于回答生物医学图像的开放式研究问题。 2. Key Idea：从 PubMed Central 提取生物医学figure-caption数据集，然后使用 GPT-4 通过caption来self-instruct open-ended instruction-following data，然后使用a novel curriculum learning method来微调通用领域视觉语言模型。 3. 使用8 A100，大约15小时训练。 ## 数据搜集 ### 搜集figure-caption数据 1. 从 PMC-15M 数据集中采样了 600K 个医疗图像文本对（如何采样未知）。 2. PMC-15M：包含从 PubMed Central 的生物医学研究文章中提取的 1500 万对图形标题。它涵盖了多种生物医学图像类型，例如显微镜、放射线照相、组织学等。该数据集仅提供单个任务指令，即图像字幕。对于每对图像和标题，研究者采样一个问题，要求描述生物医学图像。使用（图像，标题，问题）三元组，创建单个指令跟随示例。根据标题的长度，采样的问题要么要求简洁地描述图像，要么要求详细描述。 ### 生成Biomedical Instruction-Tuning Data 1. 目的：使模型遵循多样化的指令。 2. 方法：给出captions，使用GPT-4 来生成多轮对话中的指令和答案。这些指令旨在模拟用户可能对生物医学图像提出的查询。给定图像标题，在提示中设计指令，要求 GPT-4 以一种语气生成多轮问题和答案，就好像它可以看到图像一样。为了提供有关图像的更多上下文，还创建了一种提示，其中不仅包括标题，还包括原始 PubMed 论文中提到该图像的句子。为了收集图像标题及其上下文，过滤 PMC-15M 以保留仅包含单个图的图像。从中，从五种最常见的成像方式中采样了 60K 个图像文本对：CXR（胸部 X 射线）、CT（计算机断层扫描）、MRI（磁共振成像）、组织病理学和大体（即宏观）病理学。 ## 方法训练 ### 采用LLaVA作为初始通用领域LM。 ![图片1.png](/attachments/45261213-0914-476b-9e0a-be4a435685ca) 1. 对于输入图像，使用预训练的 CLIP 视觉编码器 ViT-L/14，提取视觉特征。 2. 使用一个简单的线性层将图像特征连接到词嵌入空间。 ### 训练流程 ![图片4.png](/attachments/438eb835-8bfb-4135-943b-2afc75a55ae3) #### Stage 1：Biomedical Concept Feature Alignment 1. 图文对对齐。 1. 给定语言指令和图像输入，要求模型预测原始标题。在训练中，保持视觉编码器和 LM 权重冻结，只更新projection matrix。 #### Stage 2：End-to-End Instruction-Tuning 1. 保持视觉编码器权重冻结，并继续更新投影层和LM的预训练权重。 1. 通过收集的生物医学语言图像指令遵循数据，微调模型来开发生物医学聊天机器人。 #### Fine-tuning to Downstream Datasets. 1. 在三个生物医学 VQA 数据集上对 LLaVA-Med 进行微调。 1. 给定生物医学图像作为上下文，提供多个自然语言问题，助手以自由格式文本回答封闭集和开放集问题，并在每个封闭集问题的提示中构建候选答案列表。 ## 实验 #### LLaVA-Med 作为开放式生物医学视觉聊天机器人的性能如何？ ![图片2.png](/attachments/5a734937-8ac2-4fc4-9ee3-0dd9b65bc1fe) 1. 构建包含 193 个新问题的评估数据集。从 PMC-15M 中随机选择了 50 个未见过的图像和标题对，并生成两种类型的问题：对话和详细描述。 2. 利用 GPT-4 来量化模型回答问题的正确性。给定两个助手（候选 LMM 和 GPT-4）的回答、问题、图形标题和图形上下文，要求 GPT-4 对两个助手的回答的有用性、相关性、准确性和详细程度进行评分并给出 1 到 10 分的总体评分，评分越高表明整体表现越好。 GPT-4还被要求对评估提供全面的解释。 3. 不同的训练数据： > 60K-IM。自指令生成数据集的caption包含上下文描述。 > > 60K。自指令生成数据集没有上下文描述。 > > 10K。没有上下文描述的较小数据集。 #### LLaVA-Med 与标准基准上的现有方法相比如何？ 1. VQA-RAD：包含由临床医生生成的关于放射影像（如X光、CT扫描、MRI等）的问题和答案对。 2. SLAKE：为医学视觉问答任务设计的高质量数据集，包含了丰富的医学影像和由专业医生提出的多样化问题。 3. PathVQA：专注于病理学图像，包括组织切片、细胞涂片等，并围绕这些图像提出了相关问题。 ![图片3.png](/attachments/4a02cc9d-de52-47bc-ab3d-159e92a310f8) 1. 所有 LLaVA-Med 变体的性能均优于 LLaVA。虽然 LLaVA 或 Vicuna 的语言模型初始化差异很小，但 BioMed CLIP 的视觉编码器初始化略好于通用域 CLIP。 1. 在 VQA-RAD 和 PathVQA 的封闭集问题上，LLaVA-Med 的微调性能高于有监督的 SoTA。这验证了 LLaVA-Med 在提供明确指示（例如，是或否）时遵循指示完成生物医学任务的强大能力。 1. 对于开放集问题，LLaVA-Med 在 SLAKE 上实现了 SoTA，但其性能在其他数据集上受到限制。

3.9 KiB

4.8 KiB

93 KiB

8.2 KiB

7.9 KiB

图片1.png

213 KiB