LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day #85

Open
opened 2024-09-13 19:15:41 +08:00 by 12019701659cs · 0 comments

Paper: Paper, NeurIPS 2023 Datasets and Benchmarks Track (Spotlight)
code: https://github.com/microsoft/LLaVA-Med

LLaVA-Med

  1. 提出了一种cost-efficient的方法来训练视觉语言会话助手,用于回答生物医学图像的开放式研究问题。

  2. Key Idea:从 PubMed Central 提取生物医学figure-caption数据集,然后使用 GPT-4 通过caption来self-instruct open-ended instruction-following data,然后使用a novel curriculum learning method来微调通用领域视觉语言模型。

  3. 使用8 A100,大约15小时训练。

数据搜集

搜集figure-caption数据

  1. 从 PMC-15M 数据集中采样了 600K 个医疗图像文本对(如何采样未知)。

  2. PMC-15M:包含从 PubMed Central 的生物医学研究文章中提取的 1500 万对图形标题。它涵盖了多种生物医学图像类型,例如显微镜、放射线照相、组织学等。该数据集仅提供单个任务指令,即图像字幕。对于每对图像和标题,研究者采样一个问题,要求描述生物医学图像。使用(图像,标题,问题)三元组,创建单个指令跟随示例。根据标题的长度,采样的问题要么要求简洁地描述图像,要么要求详细描述。

生成Biomedical Instruction-Tuning Data

  1. 目的:使模型遵循多样化的指令。

  2. 方法:给出captions,使用GPT-4 来生成多轮对话中的指令和答案。这些指令旨在模拟用户可能对生物医学图像提出的查询。
    给定图像标题,在提示中设计指令,要求 GPT-4 以一种语气生成多轮问题和答案,就好像它可以看到图像一样。
    为了提供有关图像的更多上下文,还创建了一种提示,其中不仅包括标题,还包括原始 PubMed 论文中提到该图像的句子。
    为了收集图像标题及其上下文,过滤 PMC-15M 以保留仅包含单个图的图像。从中,从五种最常见的成像方式中采样了 60K 个图像文本对:CXR(胸部 X 射线)、CT(计算机断层扫描)、MRI(磁共振成像)、组织病理学和大体(即宏观)病理学。

方法训练

采用LLaVA作为初始通用领域LM。

图片1.png

  1. 对于输入图像,使用预训练的 CLIP 视觉编码器 ViT-L/14,提取视觉特征。
  2. 使用一个简单的线性层将图像特征连接到词嵌入空间。

训练流程

图片4.png

Stage 1:Biomedical Concept Feature Alignment

  1. 图文对对齐。

  2. 给定语言指令和图像输入,要求模型预测原始标题。在训练中,保持视觉编码器和 LM 权重冻结,只更新projection matrix。

Stage 2:End-to-End Instruction-Tuning

  1. 保持视觉编码器权重冻结,并继续更新投影层和LM的预训练权重。

  2. 通过收集的生物医学语言图像指令遵循数据,微调模型来开发生物医学聊天机器人。

Fine-tuning to Downstream Datasets.

  1. 在三个生物医学 VQA 数据集上对 LLaVA-Med 进行微调。

  2. 给定生物医学图像作为上下文,提供多个自然语言问题,助手以自由格式文本回答封闭集和开放集问题,并在每个封闭集问题的提示中构建候选答案列表。

实验

LLaVA-Med 作为开放式生物医学视觉聊天机器人的性能如何?

图片2.png

  1. 构建包含 193 个新问题的评估数据集。从 PMC-15M 中随机选择了 50 个未见过的图像和标题对,并生成两种类型的问题:对话和详细描述。

  2. 利用 GPT-4 来量化模型回答问题的正确性。 给定两个助手(候选 LMM 和 GPT-4)的回答、问题、图形标题和图形上下文,要求 GPT-4 对两个助手的回答的有用性、相关性、准确性和详细程度进行评分并给出 1 到 10 分的总体评分,评分越高表明整体表现越好。 GPT-4还被要求对评估提供全面的解释。

  3. 不同的训练数据:

60K-IM。自指令生成数据集的caption包含上下文描述。

60K。自指令生成数据集没有上下文描述。

10K。没有上下文描述的较小数据集。

LLaVA-Med 与标准基准上的现有方法相比如何?

  1. VQA-RAD:包含由临床医生生成的关于放射影像(如X光、CT扫描、MRI等)的问题和答案对。

  2. SLAKE:为医学视觉问答任务设计的高质量数据集,包含了丰富的医学影像和由专业医生提出的多样化问题。

  3. PathVQA:专注于病理学图像,包括组织切片、细胞涂片等,并围绕这些图像提出了相关问题。

图片3.png

  1. 所有 LLaVA-Med 变体的性能均优于 LLaVA。虽然 LLaVA 或 Vicuna 的语言模型初始化差异很小,但 BioMed CLIP 的视觉编码器初始化略好于通用域 CLIP。

  2. 在 VQA-RAD 和 PathVQA 的封闭集问题上,LLaVA-Med 的微调性能高于有监督的 SoTA。这验证了 LLaVA-Med 在提供明确指示(例如,是或否)时遵循指示完成生物医学任务的强大能力。

  3. 对于开放集问题,LLaVA-Med 在 SLAKE 上实现了 SoTA,但其性能在其他数据集上受到限制。

Paper: [Paper, NeurIPS 2023 Datasets and Benchmarks Track (Spotlight)](https://arxiv.org/abs/2306.00890) code: https://github.com/microsoft/LLaVA-Med # LLaVA-Med 1. 提出了一种cost-efficient的方法来训练视觉语言会话助手,用于回答生物医学图像的开放式研究问题。 2. Key Idea:从 PubMed Central 提取生物医学figure-caption数据集,然后使用 GPT-4 通过caption来self-instruct open-ended instruction-following data,然后使用a novel curriculum learning method来微调通用领域视觉语言模型。 3. 使用8 A100,大约15小时训练。 ## 数据搜集 ### 搜集figure-caption数据 1. 从 PMC-15M 数据集中采样了 600K 个医疗图像文本对(如何采样未知)。 2. PMC-15M:包含从 PubMed Central 的生物医学研究文章中提取的 1500 万对图形标题。它涵盖了多种生物医学图像类型,例如显微镜、放射线照相、组织学等。该数据集仅提供单个任务指令,即图像字幕。对于每对图像和标题,研究者采样一个问题,要求描述生物医学图像。使用(图像,标题,问题)三元组,创建单个指令跟随示例。根据标题的长度,采样的问题要么要求简洁地描述图像,要么要求详细描述。 ### 生成Biomedical Instruction-Tuning Data 1. 目的:使模型遵循多样化的指令。 2. 方法:给出captions,使用GPT-4 来生成多轮对话中的指令和答案。这些指令旨在模拟用户可能对生物医学图像提出的查询。 给定图像标题,在提示中设计指令,要求 GPT-4 以一种语气生成多轮问题和答案,就好像它可以看到图像一样。 为了提供有关图像的更多上下文,还创建了一种提示,其中不仅包括标题,还包括原始 PubMed 论文中提到该图像的句子。 为了收集图像标题及其上下文,过滤 PMC-15M 以保留仅包含单个图的图像。从中,从五种最常见的成像方式中采样了 60K 个图像文本对:CXR(胸部 X 射线)、CT(计算机断层扫描)、MRI(磁共振成像)、组织病理学和大体(即宏观)病理学。 ## 方法训练 ### 采用LLaVA作为初始通用领域LM。 ![图片1.png](/attachments/45261213-0914-476b-9e0a-be4a435685ca) 1. 对于输入图像,使用预训练的 CLIP 视觉编码器 ViT-L/14,提取视觉特征。 2. 使用一个简单的线性层将图像特征连接到词嵌入空间。 ### 训练流程 ![图片4.png](/attachments/438eb835-8bfb-4135-943b-2afc75a55ae3) #### Stage 1:Biomedical Concept Feature Alignment 1. 图文对对齐。 1. 给定语言指令和图像输入,要求模型预测原始标题。在训练中,保持视觉编码器和 LM 权重冻结,只更新projection matrix。 #### Stage 2:End-to-End Instruction-Tuning 1. 保持视觉编码器权重冻结,并继续更新投影层和LM的预训练权重。 1. 通过收集的生物医学语言图像指令遵循数据,微调模型来开发生物医学聊天机器人。 #### Fine-tuning to Downstream Datasets. 1. 在三个生物医学 VQA 数据集上对 LLaVA-Med 进行微调。 1. 给定生物医学图像作为上下文,提供多个自然语言问题,助手以自由格式文本回答封闭集和开放集问题,并在每个封闭集问题的提示中构建候选答案列表。 ## 实验 #### LLaVA-Med 作为开放式生物医学视觉聊天机器人的性能如何? ![图片2.png](/attachments/5a734937-8ac2-4fc4-9ee3-0dd9b65bc1fe) 1. 构建包含 193 个新问题的评估数据集。从 PMC-15M 中随机选择了 50 个未见过的图像和标题对,并生成两种类型的问题:对话和详细描述。 2. 利用 GPT-4 来量化模型回答问题的正确性。 给定两个助手(候选 LMM 和 GPT-4)的回答、问题、图形标题和图形上下文,要求 GPT-4 对两个助手的回答的有用性、相关性、准确性和详细程度进行评分并给出 1 到 10 分的总体评分,评分越高表明整体表现越好。 GPT-4还被要求对评估提供全面的解释。 3. 不同的训练数据: > 60K-IM。自指令生成数据集的caption包含上下文描述。 > > 60K。自指令生成数据集没有上下文描述。 > > 10K。没有上下文描述的较小数据集。 #### LLaVA-Med 与标准基准上的现有方法相比如何? 1. VQA-RAD:包含由临床医生生成的关于放射影像(如X光、CT扫描、MRI等)的问题和答案对。 2. SLAKE:为医学视觉问答任务设计的高质量数据集,包含了丰富的医学影像和由专业医生提出的多样化问题。 3. PathVQA:专注于病理学图像,包括组织切片、细胞涂片等,并围绕这些图像提出了相关问题。 ![图片3.png](/attachments/4a02cc9d-de52-47bc-ab3d-159e92a310f8) 1. 所有 LLaVA-Med 变体的性能均优于 LLaVA。虽然 LLaVA 或 Vicuna 的语言模型初始化差异很小,但 BioMed CLIP 的视觉编码器初始化略好于通用域 CLIP。 1. 在 VQA-RAD 和 PathVQA 的封闭集问题上,LLaVA-Med 的微调性能高于有监督的 SoTA。这验证了 LLaVA-Med 在提供明确指示(例如,是或否)时遵循指示完成生物医学任务的强大能力。 1. 对于开放集问题,LLaVA-Med 在 SLAKE 上实现了 SoTA,但其性能在其他数据集上受到限制。
Sign in to join this conversation.
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_course#85
No description provided.