LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day #85
Labels
No Label
bug
duplicate
enhancement
help wanted
invalid
question
wontfix
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: HswOAuth/llm_course#85
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Paper: Paper, NeurIPS 2023 Datasets and Benchmarks Track (Spotlight)
code: https://github.com/microsoft/LLaVA-Med
LLaVA-Med
提出了一种cost-efficient的方法来训练视觉语言会话助手,用于回答生物医学图像的开放式研究问题。
Key Idea:从 PubMed Central 提取生物医学figure-caption数据集,然后使用 GPT-4 通过caption来self-instruct open-ended instruction-following data,然后使用a novel curriculum learning method来微调通用领域视觉语言模型。
使用8 A100,大约15小时训练。
数据搜集
搜集figure-caption数据
从 PMC-15M 数据集中采样了 600K 个医疗图像文本对(如何采样未知)。
PMC-15M:包含从 PubMed Central 的生物医学研究文章中提取的 1500 万对图形标题。它涵盖了多种生物医学图像类型,例如显微镜、放射线照相、组织学等。该数据集仅提供单个任务指令,即图像字幕。对于每对图像和标题,研究者采样一个问题,要求描述生物医学图像。使用(图像,标题,问题)三元组,创建单个指令跟随示例。根据标题的长度,采样的问题要么要求简洁地描述图像,要么要求详细描述。
生成Biomedical Instruction-Tuning Data
目的:使模型遵循多样化的指令。
方法:给出captions,使用GPT-4 来生成多轮对话中的指令和答案。这些指令旨在模拟用户可能对生物医学图像提出的查询。
给定图像标题,在提示中设计指令,要求 GPT-4 以一种语气生成多轮问题和答案,就好像它可以看到图像一样。
为了提供有关图像的更多上下文,还创建了一种提示,其中不仅包括标题,还包括原始 PubMed 论文中提到该图像的句子。
为了收集图像标题及其上下文,过滤 PMC-15M 以保留仅包含单个图的图像。从中,从五种最常见的成像方式中采样了 60K 个图像文本对:CXR(胸部 X 射线)、CT(计算机断层扫描)、MRI(磁共振成像)、组织病理学和大体(即宏观)病理学。
方法训练
采用LLaVA作为初始通用领域LM。
训练流程
Stage 1:Biomedical Concept Feature Alignment
图文对对齐。
给定语言指令和图像输入,要求模型预测原始标题。在训练中,保持视觉编码器和 LM 权重冻结,只更新projection matrix。
Stage 2:End-to-End Instruction-Tuning
保持视觉编码器权重冻结,并继续更新投影层和LM的预训练权重。
通过收集的生物医学语言图像指令遵循数据,微调模型来开发生物医学聊天机器人。
Fine-tuning to Downstream Datasets.
在三个生物医学 VQA 数据集上对 LLaVA-Med 进行微调。
给定生物医学图像作为上下文,提供多个自然语言问题,助手以自由格式文本回答封闭集和开放集问题,并在每个封闭集问题的提示中构建候选答案列表。
实验
LLaVA-Med 作为开放式生物医学视觉聊天机器人的性能如何?
构建包含 193 个新问题的评估数据集。从 PMC-15M 中随机选择了 50 个未见过的图像和标题对,并生成两种类型的问题:对话和详细描述。
利用 GPT-4 来量化模型回答问题的正确性。 给定两个助手(候选 LMM 和 GPT-4)的回答、问题、图形标题和图形上下文,要求 GPT-4 对两个助手的回答的有用性、相关性、准确性和详细程度进行评分并给出 1 到 10 分的总体评分,评分越高表明整体表现越好。 GPT-4还被要求对评估提供全面的解释。
不同的训练数据:
LLaVA-Med 与标准基准上的现有方法相比如何?
VQA-RAD:包含由临床医生生成的关于放射影像(如X光、CT扫描、MRI等)的问题和答案对。
SLAKE:为医学视觉问答任务设计的高质量数据集,包含了丰富的医学影像和由专业医生提出的多样化问题。
PathVQA:专注于病理学图像,包括组织切片、细胞涂片等,并围绕这些图像提出了相关问题。
所有 LLaVA-Med 变体的性能均优于 LLaVA。虽然 LLaVA 或 Vicuna 的语言模型初始化差异很小,但 BioMed CLIP 的视觉编码器初始化略好于通用域 CLIP。
在 VQA-RAD 和 PathVQA 的封闭集问题上,LLaVA-Med 的微调性能高于有监督的 SoTA。这验证了 LLaVA-Med 在提供明确指示(例如,是或否)时遵循指示完成生物医学任务的强大能力。
对于开放集问题,LLaVA-Med 在 SLAKE 上实现了 SoTA,但其性能在其他数据集上受到限制。