多模态学习 #11

Open
opened 2024-10-24 16:23:35 +08:00 by GANGUAGUA · 0 comments

多模态的意思是“具有多种模态”,[而“模态”]是指一种输入或输出,例如视频、图像、音频、[文本、本体感觉]等。在人工智能领域,有专门设计的模型来处理这些模态之间的转换。下面是一些例子:

  1. 图像到标签:像AlexNet这样的模型可以接收一张图片作为输入,并输出描述这张图片内容的标签,比如“猫”或“汽车”。
  2. 图像到文本:视觉问答模型可以接收一张图片作为输入,并输出与图片内容相关的文本信息,比如解释图片中发生了什么。
  3. 语音到文本:语音识别模型可以将说的语音作为输入,转换成书面的文本。

总的来说,多模态AI模型能够理解和处理不同类型的数据,并将一种类型的数据转换成另一种类型的数据。这种技术使得机器能够更自然地与人类交互,因为人类在沟通时通常会同时使用视觉、听觉和语言等多种方式。

动机

数据常常包含多种形式,每种形式都带有独特的信息。

  • 比如,给图片加标题可以补充图片本身没有显示的信息,或者用图片来说明文本中不明显的内容。如果多个词频繁出现在相似的图片中,这些词可能都在描述同一个东西;如果一个词用来描述看起来不同的图片,这些图片可能实际上指的是同一个对象。

因此,在处理包含多种信息形式的数据时,使用能够统一表示这些信息的模型很重要,这样模型就能从不同来源捕获并组合信息。

简而言之,就是利用模型来整合不同形式的数据,以便更好地理解和利用信息。

多模态变压器

多模态Transformer是一种深度学习模型,它能够处理和整合不同类型的数据,如文本、音频、图像或视频。这种模型的关键技术包括:

  1. 标记化(Tokenization):将不同模态的数据转换成模型可以理解的格式。例如,图像可以被分割成一系列小块(patches),然后转换为向量,类似于文本中的单词或字符。
  2. 训练方法
    1. 从头开始训练:模型从零开始学习,通常需要大量标注数据。
    2. 微调(Fine-tuning):在预训练模型的基础上,针对特定任务进行调整。例如,一项研究发现,仅在自然语言上预训练的Transformer可以在少量参数上进行微调,并在多种逻辑和视觉任务上与LSTM竞争,展示了迁移学习的能力。
  3. 特定领域的多模态模型
    1. LLaVA:一种视觉语言模型,由语言模型(如Vicuna-13B)和视觉模型(如ViT-L/14)组成,通过线性层连接,通常只对线性图层进行微调。
    2. Vision Transformers(ViT):通过将输入图像分解为一系列补丁,将它们转换为向量,并在标准Transformer中视为令牌,使Transformer适应计算机视觉任务
    3. Conformer:结合了卷积神经网络(CNN)和Transformer,特别适合语音识别任务。它将语音信号转换为频谱图,然后视为图像,分解为一系列补丁,转换为向量,并在标准Transformer中视为令牌。
    4. Whisper:OpenAI开发的通用语音识别模型,使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的准确性。与CNN遵循相同的语音识别模式,首先将语音信号转换为频谱图,然后将其视为图像,即分解为一系列补丁,转换为向量,并被视为标准转换器中的令牌。
  4. 多模态设计的Transformer变体
    1. 感知器(Perceiver):专为多模态设计的Transformer变体,能够处理不同模态的数据。
    2. Body Transformer(BoT):适合机器人策略学习的Transformer变体,能够处理机器人机体上的传感器和执行器之间的空间关联。
  5. 图像生成架构
    1. DALL-E 1(2021):DALL-E 1是一个基于自回归Transformer的模型,它能够根据文本描述生成图像。这个模型使用了变分自动编码器(VAE)来转换图像,使其能够生成与训练数据风格相似的新图像。DALL-E 1的训练包括两个步骤:首先,训练一个离散变分自编码器(dVAE)将图像转换为一系列的图像token;其次,将文本token和图像token拼接,然后训练一个自回归Transformer来建模文本和图像token的联合分布。这样,给定一个文本描述,DALL-E 1可以生成与之匹配的图像。
    2. Parti(2022):Parti是一个编码器-解码器Transformer模型,它将文本到图像的生成视为序列到序列的建模问题。这个模型首先使用基于Transformer的图像标记器(tokenizer)将图像编码为离散的标记序列。然后,通过扩展的Transformer模型,从文本标记生成图像标记。Parti的关键在于它的简单性,所有组件(编码器、解码器和图像标记器)都基于标准Transformer,这使得模型可以直接扩展。其在生成高保真逼真图像方面也具有很强的能力。
    3. Phenaki(2023):Phenaki是一个文本到视频的模型,它使用了一个双向掩码Transformer,这个模型以预先计算的文本标记为条件,生成视频的令牌表示,然后这些令牌被解码成视频。Phenaki能够根据一系列文本提示生成视频,这些提示可以随时间变化,使得视频可以有多分钟长。这个模型通过使用因果模型来学习视频表示,将视频压缩成离散token的序列,这些token随后被解token化以创建实际的视频。
    4. Muse(2023):Muse是一个文本到图像的生成模型,使用了Transformer架构和预训练的语言模型LLM来理解文本并生成图像。它通过将图像转换成离散的token,然后预测这些token来工作,这种方法比传统的像素级模型更高效。Muse还能直接用于图像编辑,如填补和扩展图像,而无需额外的微调。

这些模型和方法展示了多模态Transformer在处理和生成不同类型数据方面的多样性和灵活性。通过这些技术,多模态Transformer能够更好地理解和生成复杂的数据,为各种应用提供了强大的支持。

**<font style="color:rgb(32, 33, 34);">多模态</font>**<font style="color:rgb(32, 33, 34);">的意思是“具有多种模态”,</font>[<font style="color:rgb(32, 33, 34);">而“模态”</font>]<font style="color:rgb(32, 33, 34);">是指一种输入或输出,例如视频、图像、音频、</font>[<font style="color:rgb(32, 33, 34);">文本、本体感觉</font>]<font style="color:rgb(32, 33, 34);">等。在人工智能领域,有专门设计的模型来处理这些模态之间的转换。下面是一些例子:</font> 1. <u><font style="color:rgb(32, 33, 34);">图像到标签</font></u><font style="color:rgb(32, 33, 34);">:像AlexNet这样的模型可以接收一张图片作为输入,并输出描述这张图片内容的标签,比如“猫”或“汽车”。</font> 2. <u><font style="color:rgb(32, 33, 34);">图像到文本</font></u><font style="color:rgb(32, 33, 34);">:视觉问答模型可以接收一张图片作为输入,并输出与图片内容相关的文本信息,比如解释图片中发生了什么。</font> 3. <u><font style="color:rgb(32, 33, 34);">语音到文本</font></u><font style="color:rgb(32, 33, 34);">:语音识别模型可以将说的语音作为输入,转换成书面的文本。</font> <font style="color:rgb(32, 33, 34);">总的来说,多模态AI模型能够理解和处理不同类型的数据,并将一种类型的数据转换成另一种类型的数据。这种技术使得机器能够更自然地与人类交互,因为人类在沟通时通常会同时使用视觉、听觉和语言等多种方式。</font> <font style="color:rgb(6, 6, 7);"></font> ## 动机 <font style="color:rgb(32, 33, 34);">数据常常包含多种形式,每种形式都带有独特的信息。</font> + <font style="color:rgb(32, 33, 34);">比如,给图片加标题可以补充图片本身没有显示的信息,或者用图片来说明文本中不明显的内容。如果多个词频繁出现在相似的图片中,这些词可能都在描述同一个东西;如果一个词用来描述看起来不同的图片,这些图片可能实际上指的是同一个对象。</font> <font style="color:rgb(32, 33, 34);">因此,在处理包含多种信息形式的数据时,使用能够</font>**<font style="color:rgb(32, 33, 34);">统一表示这些信息的模型</font>**<font style="color:rgb(32, 33, 34);">很重要,这样模型就能从不同来源捕获并组合信息。</font> <font style="color:rgb(32, 33, 34);">简而言之,就是利用模型来整合不同形式的数据,以便更好地理解和利用信息。</font> <font style="color:rgb(32, 33, 34);"></font> ## 多模态变压器 <font style="color:rgb(32, 33, 34);">多模态Transformer是一种深度学习模型,它能够处理和整合不同类型的数据,如文本、音频、图像或视频。这种模型的关键技术包括:</font> 1. **<font style="color:rgb(32, 33, 34);">标记化(Tokenization)</font>**<font style="color:rgb(32, 33, 34);">:将不同模态的数据转换成模型可以理解的格式。例如,图像可以被分割成一系列小块(patches),然后转换为向量,类似于文本中的单词或字符。</font> 2. **<font style="color:rgb(32, 33, 34);">训练方法</font>**<font style="color:rgb(32, 33, 34);">:</font> 1. <font style="color:rgb(32, 33, 34);"> </font>**<font style="color:rgb(32, 33, 34);">从头开始训练</font>**<font style="color:rgb(32, 33, 34);">:模型从零开始学习,通常需要大量标注数据。</font> 2. **<font style="color:rgb(32, 33, 34);">微调(Fine-tuning)</font>**<font style="color:rgb(32, 33, 34);">:在预训练模型的基础上,针对特定任务进行调整。例如,一项研究发现,仅在自然语言上预训练的Transformer可以在少量参数上进行微调,并在多种逻辑和视觉任务上与LSTM竞争,展示了迁移学习的能力。</font> 3. **<font style="color:rgb(32, 33, 34);">特定领域的多模态模型</font>**<font style="color:rgb(32, 33, 34);">:</font> 1. <font style="color:rgb(32, 33, 34);"></font>**<font style="color:rgb(32, 33, 34);">LLaVA</font>**<font style="color:rgb(32, 33, 34);">:一种</font><u><font style="color:rgb(32, 33, 34);">视觉语言模型</font></u><font style="color:rgb(32, 33, 34);">,由语言模型(如Vicuna-13B)和视觉模型(如ViT-L/14)组成,通过线性层连接,通常只对线性图层进行微调。</font> 2. **<font style="color:rgb(32, 33, 34);">Vision Transformers(ViT)</font>**<font style="color:rgb(32, 33, 34);">:通过将输入图像分解为一系列补丁,将它们转换为向量,并在标准Transformer中视为令牌,使Transformer适应计算机</font><u><font style="color:rgb(32, 33, 34);">视觉任务</font></u><font style="color:rgb(32, 33, 34);">。</font> 3. **<font style="color:rgb(32, 33, 34);">Conformer</font>**<font style="color:rgb(32, 33, 34);">:结合了卷积神经网络(CNN)和Transformer,特别适合</font><u><font style="color:rgb(32, 33, 34);">语音识别任务</font></u><font style="color:rgb(32, 33, 34);">。它将语音信号转换为频谱图,然后视为图像,分解为一系列补丁,转换为向量,并在标准Transformer中视为令牌。</font> 4. **<font style="color:rgb(32, 33, 34);">Whisper</font>**<font style="color:rgb(32, 33, 34);">:OpenAI开发的通用</font><u><font style="color:rgb(32, 33, 34);">语音识别模型</font></u><font style="color:rgb(32, 33, 34);">,使用了大量的多语言和多任务的监督数据来训练,能够在英语语音识别上达到接近人类水平的准确性。与CNN</font><font style="color:#000000;background-color:#FFFFFF;">遵循相同的语音识别模式,首先将语音信号转换为频谱图,然后将其视为图像,即分解为一系列补丁,转换为向量,并被视为标准转换器中的令牌。</font> 4. **<font style="color:rgb(32, 33, 34);">多模态设计的Transformer变体</font>**<font style="color:rgb(32, 33, 34);">:</font> 1. **<font style="color:rgb(32, 33, 34);">感知器(Perceiver)</font>**<font style="color:rgb(32, 33, 34);">:专为多模态设计的Transformer变体,能够处理不同模态的数据。</font> 2. **<font style="color:rgb(32, 33, 34);">Body Transformer(BoT)</font>**<font style="color:rgb(32, 33, 34);">:适合机器人策略学习的Transformer变体,能够处理机器人机体上的传感器和执行器之间的空间关联。</font> 5. **<font style="color:rgb(32, 33, 34);">图像生成架构</font>**<font style="color:rgb(32, 33, 34);">:</font> 1. **<font style="color:rgb(32, 33, 34);">DALL-E 1(2021)</font>**<font style="color:rgb(32, 33, 34);">:</font><font style="color:rgb(6, 6, 7);">DALL-E 1是一个基于自回归Transformer的模型,它能够</font><u><font style="color:rgb(6, 6, 7);">根据文本描述生成图像</font></u><font style="color:rgb(6, 6, 7);">。这个模型使用了变分自动编码器(VAE)来转换图像,使其能够生成与训练数据风格相似的新图像。DALL-E 1的训练包括两个步骤:首先,训练一个离散变分自编码器(dVAE)将图像转换为一系列的图像token;其次,将文本token和图像token拼接,然后训练一个自回归Transformer来建模文本和图像token的联合分布。这样,给定一个文本描述,DALL-E 1可以生成与之匹配的图像。</font> 2. **<font style="color:rgb(32, 33, 34);">Parti(2022)</font>**<font style="color:rgb(32, 33, 34);">:</font><font style="color:rgb(6, 6, 7);">Parti是一个编码器-解码器Transformer模型,它将</font><u><font style="color:rgb(6, 6, 7);">文本到图像</font></u><font style="color:rgb(6, 6, 7);">的生成视为序列到序列的建模问题。这个模型首先使用基于Transformer的图像标记器(tokenizer)将图像编码为离散的标记序列。然后,通过扩展的Transformer模型,从文本标记生成图像标记。Parti的关键在于它的简单性,所有组件(编码器、解码器和图像标记器)都基于标准Transformer,这使得模型可以直接扩展。其在生成高保真逼真图像方面也具有很强的能力。</font> 3. **<font style="color:rgb(32, 33, 34);">Phenaki(2023)</font>**<font style="color:rgb(32, 33, 34);">:</font><font style="color:rgb(6, 6, 7);">Phenaki是一个</font><u><font style="color:rgb(6, 6, 7);">文本到视频</font></u><font style="color:rgb(6, 6, 7);">的模型,它使用了一个双向掩码Transformer,这个模型以预先计算的文本标记为条件,生成视频的令牌表示,然后这些令牌被解码成视频。Phenaki能够根据一系列文本提示生成视频,这些提示可以随时间变化,使得视频可以有多分钟长。这个模型通过使用因果模型来学习视频表示,将视频压缩成离散token的序列,这些token随后被解token化以创建实际的视频。</font> 4. **<font style="color:rgb(32, 33, 34);">Muse(2023)</font>**<font style="color:rgb(32, 33, 34);">:Muse是一个</font><u><font style="color:rgb(32, 33, 34);">文本到图像</font></u><font style="color:rgb(32, 33, 34);">的生成模型,使用了Transformer架构和预训练的语言模型LLM来理解文本并生成图像。它通过将图像转换成离散的token,然后预测这些token来工作,这种方法比传统的像素级模型更高效。Muse还能直接用于图像编辑,如填补和扩展图像,而无需额外的微调。</font> <font style="color:rgb(32, 33, 34);"></font> <font style="color:rgb(32, 33, 34);">这些模型和方法展示了多模态Transformer在处理和生成不同类型数据方面的多样性和灵活性。通过这些技术,多模态Transformer能够更好地理解和生成复杂的数据,为各种应用提供了强大的支持。</font>
Sign in to join this conversation.
No Label
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: HswOAuth/llm_kb#11
No description provided.