一文搞懂MAE(掩码自编码器)

Source

1.核心思想

MAE 的核心思想是通过掩码和重建的方式,让模型从未标注的图像中学习到有效的特征。其流程如下:

(1)随机掩码:将输入图像分割为多个不重叠的图像块(Patches),随机遮蔽其中一部分(例如75%)。

(2)编码器处理可见部分:仅对未被遮蔽的图像块进行编码,提取高维语义特征。

(3)解码器重建图像:利用编码后的特征和掩码标记(Mask Token)重建被遮蔽的图像区域。

(4)损失函数优化:通过最小化重建图像与原始图像之间的差异(如MSE)来训练模型。

2.MAE的结构

MAE 由两个主要部分组成:

(1)编码器(Encoder)

功能:从可见图像块中提取高维语义特征。

设计:基于 Vision Transformer(ViT),仅处理未被遮蔽的图像块,计算量较小。

特点:输入为未被遮蔽的图像块(约占25%)。输出为潜在的语义表示(Latent Representations)。

(2)解码器(Decoder)

功能:根据潜在表示和掩码标记重建原始图像。

设计:轻量级的 Transformer 结构,输入包括编码器输出的潜在表示(可见部分)和掩码标记(Mask Token)的位置信息。

特点:仅在训练时使用(用于重建任务)。最终输出为完整的图像像素值。

3.关键设计

(1)非对称架构

编码器专注于提取高维语义信息(类似NLP中的BERT),解码器负责低层次的像素重建任务,两者分工明确,提升训练效率。

(2)高掩码比例

实验证明,掩码75%的图像块能有效迫使模型学习全局结构信息,而非局部细节。

(3)位置编码

编码器和解码器均使用位置编码(Sine-Cosine 编码),保留图像的空间信息。

4.训练与优化

(1)训练目标

重建损失(Reconstruction Loss):仅对被掩码的图像块计算损失(如MSE)。

优化策略:使用批量归一化、动态学习率等技术加速收敛。

(2)预训练与微调

预训练阶段:在无标签的图像数据上进行自监督训练,学习通用特征。

微调阶段:在标注数据上进行有监督微调,适配下游任务(如分类、检测)。

5.应用场景

(1)图像重建

从部分掩码的图像中恢复完整内容,常用于超分辨率、去噪等任务。

(2)特征提取

预训练的编码器可提取强通用特征,用于图像分类、目标检测等下游任务。

(3)迁移学习

MAE 在 ImageNet 上的预训练模型(如 ViT-Huge)可达到87.8%的 Top-1 精度,优于有监督预训练。