###好好好####多模态中的BERT

image

BERT自问世以来，几乎刷新了各种NLP的任务榜，基于BERT的变种也层出不穷，在很多任务里都可以看到其身影。大浪淘沙，沉者为金，回想第一次看到BERT的论文时，确实不曾想其也能对工业界产生极大的影响。

本文尝试梳理今年BERT在多模态任务（主要涉及视觉和文本模态）上的一些工作，尝试比较各工作的主要思路以及做法上的区别，因此不会过多的涉及细节。总的来看，众多工作的主体模型大同小异，均使用Transformer，从表1（引用自VL-BERT论文）可以对各工作之间的相似和不同之处有个整体的认识。

###好好好####多模态中的BERT

image

可以看到，各方案之间的差异基本在于模态融合方式、预训练任务、以及下游任务微调，下文也将主要从这几个维度展开介绍和对比（排名不分先后）。

VideoBert

###好好好####多模态中的BERT

image

VideoBert主体采用单Transformer同时对文本token和视频片段进行模态表示和融合。与BERT区别在于把原来的句子对是否匹配（是否为下一句），换成了句子视频是否匹配任务。同时对于视频片段帧进行随机的MASK，预测对应的特征向量，文中叫visual words（通过预训练的视觉模型抽取得来，如S3D，然后聚类得到相应特征向量的id），对应于BERT的masked语言模型。

CBT

###好好好####多模态中的BERT

image

和VideoBert不同在于，视频输入和文本输入分成了两支。视频输入经过S3D网络得到视觉特征序列，文本输入经过BERT得到文本特征序列，两路序列再经过交叉的Transformer做Attention，进行多任务的预训练。

Unicoder-VL

###好好好####多模态中的BERT

image

网络结构和训练策略与VideoBert几乎一致，主要区别在于视觉测的输入由视频片段帧特征换成了单图的区域块（使用预训练的目标检测模型Faster R-CNN预测得到框、区域特征以及相应Label），对应的预测的任务由预测视频片段帧的特征向量，换成了直接预测对应Label。图文匹配任务和masked语言模型任务不变。

VisulBert

###好好好####多模态中的BERT

image

与Unicoder-VL整体思路和方法一致，除了预训练数据集以及微调任务的差异外，预训练目标上少了一个masked图像特征的预测任务。

VL-BERT

###好好好####多模态中的BERT

image

同样与Unicoder-VL相比，模型结构基本一致，不同在于在文本输入的每个token位置加入了图像的特征embedding（完整图像的特征），而在视觉侧直接接上了Fast-RCNN联合训练。

B2T2

###好好好####多模态中的BERT

image

同样也是单Transformer网络结构，不过在模态融合时候分成了晚期融合和早期融合。晚期融合比较简单，只要BERT结构的[CLS]输出端引入整个图像的特征，判断图文是否匹配，其他模块和masked语言模型没太大区别；早期融合和前面的工作相比，没有了单独的图像输入序列区域，而是在原来文本输入masked掉的词的位置输入了该词提到的图像区域块特征。

UNITER

###好好好####多模态中的BERT

image

基本思路和其他单Transformer的结构差异不大，总体感觉是用了更多的预训练数据集，下游任务微调更丰富，实验结果更全，**效果更好**。预训练任务包括masked语言模型、图文匹配和masked图像模型（包括图像region的feature的预测、KL散度的预测以及fastrcnn的label的预测，并做了组合效果的实验）。

VLP

###好好好####多模态中的BERT

image

VLP模型仍采用单Transformer结构，最大不同的是在预训练任务中引入了seq2seq的mask语言模型，天然的适合下游的生成任务做微调，如image caption。

LXMERT

###好好好####多模态中的BERT

image

对应CBT网络，LXMERT同样是两路输入，在视觉侧关注单图，和上文很多方案类似，图像经过目标检测模型得到区域块的特征序列，并经过Transformer进一步编码；文本侧通过BERT结构得到文本的特征序列，最后两者做交叉的Transformer做Attention，进行多任务的预训练。不同于其他工作，LXMERT的预训练任务可以说是巨多，包括masked图像特征的预测、图像label的预测（猫、狗等）、VQA、图文是否匹配以及masked语言模型。

ViLBert

###好好好####多模态中的BERT

image

###好好好####多模态中的BERT

image

和LXMERT一样也是两路输入，基本结构大同小异，主要区别在图像端的输入直接做Embed（特征提取后的特征序列）就和文本序列Transformer编码的输出进行交叉的attention，预训练任务也仅包括masked图像label的预测任务、图文匹配任务以及masked语言模型任务。

一些想法

总的感觉，好的基础工作会带动一波周边的探索，文章介绍的工作在发表时间上并没有太大差距，很多工作可以看作是同时进行。领域研究的持续活跃源自基础工作的不断进步，万丈高楼平地起。

具体工作上，个人感觉序列编码模块上Transformer的地位将长期难以撼动，未来可以发力的点一是模态之间更有效的融合方式，二则是在任务的创新上，如是否可以引入多模态内容之间的相关任务（如多图、多文的内容匹配），多模态内容检索等；

最后，做人也应该像BERT一样，自身不断变异进化，也让周遭环境越来越好。

参考文献

[1] Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. Videobert: A joint model for video and language representation learning. arXiv preprint arXiv:1904.01766, 2019b. [2] Chen Sun, Fabien Baradel, Kevin Murphy, and Cordelia Schmid. Contrastive bidirectional transformer for temporal representation learning. arXiv preprint arXiv:1906.05743, 2019a. [3] Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. arXiv preprint arXiv:1908.02265, 2019. [4] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visual question answering. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6077–6086, 2018. [5] Hao Tan and Mohit Bansal. Lxmert: Learning cross-modality encoder representations from transformers. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, 2019. [6] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557, 2019b. [7] Gen Li, Nan Duan, Yuejian Fang, Daxin Jiang, and Ming Zhou. Unicoder-vl: A universal encoder for vision and language by cross-modal pre-training, 2019a. [8] Su W, Zhu X, Cao Y, et al. Vl-bert: Pre-training of generic visual-linguistic representations[J]. arXiv preprint arXiv:1908.08530, 2019. [9] Chen Y C, Li L, Yu L, et al. UNITER: Learning UNiversal Image-TExt Representations[J]. arXiv preprint arXiv:1909.11740, 2019. [10] Zhou L, Palangi H, Zhang L, et al. Unified Vision-Language Pre-Training for Image Captioning and VQA[J]. arXiv preprint arXiv:1909.11059, 2019.

作者：zqh_zy
链接：https://www.jianshu.com/p/5f23e8d9224a
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。