多模态学习 #11

New Issue

GANGUAGUA · 2024-10-24T16:23:35+08:00

GANGUAGUA commented

2024-10-24 16:23:35 +08:00

多模态的意思是“具有多种模态”，[而“模态”]是指一种输入或输出，例如视频、图像、音频、[文本、本体感觉]等。在人工智能领域，有专门设计的模型来处理这些模态之间的转换。下面是一些例子：

图像到标签：像AlexNet这样的模型可以接收一张图片作为输入，并输出描述这张图片内容的标签，比如“猫”或“汽车”。
图像到文本：视觉问答模型可以接收一张图片作为输入，并输出与图片内容相关的文本信息，比如解释图片中发生了什么。
语音到文本：语音识别模型可以将说的语音作为输入，转换成书面的文本。

总的来说，多模态AI模型能够理解和处理不同类型的数据，并将一种类型的数据转换成另一种类型的数据。这种技术使得机器能够更自然地与人类交互，因为人类在沟通时通常会同时使用视觉、听觉和语言等多种方式。

动机

数据常常包含多种形式，每种形式都带有独特的信息。

比如，给图片加标题可以补充图片本身没有显示的信息，或者用图片来说明文本中不明显的内容。如果多个词频繁出现在相似的图片中，这些词可能都在描述同一个东西；如果一个词用来描述看起来不同的图片，这些图片可能实际上指的是同一个对象。

因此，在处理包含多种信息形式的数据时，使用能够统一表示这些信息的模型很重要，这样模型就能从不同来源捕获并组合信息。

简而言之，就是利用模型来整合不同形式的数据，以便更好地理解和利用信息。

多模态变压器

多模态Transformer是一种深度学习模型，它能够处理和整合不同类型的数据，如文本、音频、图像或视频。这种模型的关键技术包括：

标记化（Tokenization）：将不同模态的数据转换成模型可以理解的格式。例如，图像可以被分割成一系列小块（patches），然后转换为向量，类似于文本中的单词或字符。
训练方法：
1. 从头开始训练：模型从零开始学习，通常需要大量标注数据。
2. 微调（Fine-tuning）：在预训练模型的基础上，针对特定任务进行调整。例如，一项研究发现，仅在自然语言上预训练的Transformer可以在少量参数上进行微调，并在多种逻辑和视觉任务上与LSTM竞争，展示了迁移学习的能力。
特定领域的多模态模型：
1. LLaVA：一种视觉语言模型，由语言模型（如Vicuna-13B）和视觉模型（如ViT-L/14）组成，通过线性层连接，通常只对线性图层进行微调。
2. Vision Transformers（ViT）：通过将输入图像分解为一系列补丁，将它们转换为向量，并在标准Transformer中视为令牌，使Transformer适应计算机视觉任务。
3. Conformer：结合了卷积神经网络（CNN）和Transformer，特别适合语音识别任务。它将语音信号转换为频谱图，然后视为图像，分解为一系列补丁，转换为向量，并在标准Transformer中视为令牌。
4. Whisper：OpenAI开发的通用语音识别模型，使用了大量的多语言和多任务的监督数据来训练，能够在英语语音识别上达到接近人类水平的准确性。与CNN遵循相同的语音识别模式，首先将语音信号转换为频谱图，然后将其视为图像，即分解为一系列补丁，转换为向量，并被视为标准转换器中的令牌。
多模态设计的Transformer变体：
1. 感知器（Perceiver）：专为多模态设计的Transformer变体，能够处理不同模态的数据。
2. Body Transformer（BoT）：适合机器人策略学习的Transformer变体，能够处理机器人机体上的传感器和执行器之间的空间关联。
图像生成架构：
1. DALL-E 1（2021）：DALL-E 1是一个基于自回归Transformer的模型，它能够根据文本描述生成图像。这个模型使用了变分自动编码器（VAE）来转换图像，使其能够生成与训练数据风格相似的新图像。DALL-E 1的训练包括两个步骤：首先，训练一个离散变分自编码器（dVAE）将图像转换为一系列的图像token；其次，将文本token和图像token拼接，然后训练一个自回归Transformer来建模文本和图像token的联合分布。这样，给定一个文本描述，DALL-E 1可以生成与之匹配的图像。
2. Parti（2022）：Parti是一个编码器-解码器Transformer模型，它将文本到图像的生成视为序列到序列的建模问题。这个模型首先使用基于Transformer的图像标记器（tokenizer）将图像编码为离散的标记序列。然后，通过扩展的Transformer模型，从文本标记生成图像标记。Parti的关键在于它的简单性，所有组件（编码器、解码器和图像标记器）都基于标准Transformer，这使得模型可以直接扩展。其在生成高保真逼真图像方面也具有很强的能力。
3. Phenaki（2023）：Phenaki是一个文本到视频的模型，它使用了一个双向掩码Transformer，这个模型以预先计算的文本标记为条件，生成视频的令牌表示，然后这些令牌被解码成视频。Phenaki能够根据一系列文本提示生成视频，这些提示可以随时间变化，使得视频可以有多分钟长。这个模型通过使用因果模型来学习视频表示，将视频压缩成离散token的序列，这些token随后被解token化以创建实际的视频。
4. Muse（2023）：Muse是一个文本到图像的生成模型，使用了Transformer架构和预训练的语言模型LLM来理解文本并生成图像。它通过将图像转换成离散的token，然后预测这些token来工作，这种方法比传统的像素级模型更高效。Muse还能直接用于图像编辑，如填补和扩展图像，而无需额外的微调。

这些模型和方法展示了多模态Transformer在处理和生成不同类型数据方面的多样性和灵活性。通过这些技术，多模态Transformer能够更好地理解和生成复杂的数据，为各种应用提供了强大的支持。

**多模态**的意思是“具有多种模态”，[而“模态”]是指一种输入或输出，例如视频、图像、音频、[文本、本体感觉]等。在人工智能领域，有专门设计的模型来处理这些模态之间的转换。下面是一些例子： 1. 图像到标签：像AlexNet这样的模型可以接收一张图片作为输入，并输出描述这张图片内容的标签，比如“猫”或“汽车”。 2. 图像到文本：视觉问答模型可以接收一张图片作为输入，并输出与图片内容相关的文本信息，比如解释图片中发生了什么。 3. 语音到文本：语音识别模型可以将说的语音作为输入，转换成书面的文本。 总的来说，多模态AI模型能够理解和处理不同类型的数据，并将一种类型的数据转换成另一种类型的数据。这种技术使得机器能够更自然地与人类交互，因为人类在沟通时通常会同时使用视觉、听觉和语言等多种方式。 ## 动机 数据常常包含多种形式，每种形式都带有独特的信息。 + 比如，给图片加标题可以补充图片本身没有显示的信息，或者用图片来说明文本中不明显的内容。如果多个词频繁出现在相似的图片中，这些词可能都在描述同一个东西；如果一个词用来描述看起来不同的图片，这些图片可能实际上指的是同一个对象。 因此，在处理包含多种信息形式的数据时，使用能够**统一表示这些信息的模型**很重要，这样模型就能从不同来源捕获并组合信息。 简而言之，就是利用模型来整合不同形式的数据，以便更好地理解和利用信息。 ## 多模态变压器 多模态Transformer是一种深度学习模型，它能够处理和整合不同类型的数据，如文本、音频、图像或视频。这种模型的关键技术包括： 1. **标记化（Tokenization）**：将不同模态的数据转换成模型可以理解的格式。例如，图像可以被分割成一系列小块（patches），然后转换为向量，类似于文本中的单词或字符。 2. **训练方法**： 1. **从头开始训练**：模型从零开始学习，通常需要大量标注数据。 2. **微调（Fine-tuning）**：在预训练模型的基础上，针对特定任务进行调整。例如，一项研究发现，仅在自然语言上预训练的Transformer可以在少量参数上进行微调，并在多种逻辑和视觉任务上与LSTM竞争，展示了迁移学习的能力。 3. **特定领域的多模态模型**： 1. **LLaVA**：一种视觉语言模型，由语言模型（如Vicuna-13B）和视觉模型（如ViT-L/14）组成，通过线性层连接，通常只对线性图层进行微调。 2. **Vision Transformers（ViT）**：通过将输入图像分解为一系列补丁，将它们转换为向量，并在标准Transformer中视为令牌，使Transformer适应计算机视觉任务。 3. **Conformer**：结合了卷积神经网络（CNN）和Transformer，特别适合语音识别任务。它将语音信号转换为频谱图，然后视为图像，分解为一系列补丁，转换为向量，并在标准Transformer中视为令牌。 4. **Whisper**：OpenAI开发的通用语音识别模型，使用了大量的多语言和多任务的监督数据来训练，能够在英语语音识别上达到接近人类水平的准确性。与CNN遵循相同的语音识别模式，首先将语音信号转换为频谱图，然后将其视为图像，即分解为一系列补丁，转换为向量，并被视为标准转换器中的令牌。 4. **多模态设计的Transformer变体**： 1. **感知器（Perceiver）**：专为多模态设计的Transformer变体，能够处理不同模态的数据。 2. **Body Transformer（BoT）**：适合机器人策略学习的Transformer变体，能够处理机器人机体上的传感器和执行器之间的空间关联。 5. **图像生成架构**： 1. **DALL-E 1（2021）**：DALL-E 1是一个基于自回归Transformer的模型，它能够根据文本描述生成图像。这个模型使用了变分自动编码器（VAE）来转换图像，使其能够生成与训练数据风格相似的新图像。DALL-E 1的训练包括两个步骤：首先，训练一个离散变分自编码器（dVAE）将图像转换为一系列的图像token；其次，将文本token和图像token拼接，然后训练一个自回归Transformer来建模文本和图像token的联合分布。这样，给定一个文本描述，DALL-E 1可以生成与之匹配的图像。 2. **Parti（2022）**：Parti是一个编码器-解码器Transformer模型，它将文本到图像的生成视为序列到序列的建模问题。这个模型首先使用基于Transformer的图像标记器（tokenizer）将图像编码为离散的标记序列。然后，通过扩展的Transformer模型，从文本标记生成图像标记。Parti的关键在于它的简单性，所有组件（编码器、解码器和图像标记器）都基于标准Transformer，这使得模型可以直接扩展。其在生成高保真逼真图像方面也具有很强的能力。 3. **Phenaki（2023）**：Phenaki是一个文本到视频的模型，它使用了一个双向掩码Transformer，这个模型以预先计算的文本标记为条件，生成视频的令牌表示，然后这些令牌被解码成视频。Phenaki能够根据一系列文本提示生成视频，这些提示可以随时间变化，使得视频可以有多分钟长。这个模型通过使用因果模型来学习视频表示，将视频压缩成离散token的序列，这些token随后被解token化以创建实际的视频。 4. **Muse（2023）**：Muse是一个文本到图像的生成模型，使用了Transformer架构和预训练的语言模型LLM来理解文本并生成图像。它通过将图像转换成离散的token，然后预测这些token来工作，这种方法比传统的像素级模型更高效。Muse还能直接用于图像编辑，如填补和扩展图像，而无需额外的微调。 这些模型和方法展示了多模态Transformer在处理和生成不同类型数据方面的多样性和灵活性。通过这些技术，多模态Transformer能够更好地理解和生成复杂的数据，为各种应用提供了强大的支持。

Sign in to join this conversation.

No Label

No Milestone

No project

No Assignees

1 Participants

Notifications

Due Date

The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_kb#11