多模态预训练模型通常可以归类为以下两种网络结构:如UNITER的单塔结构,和如CBT、VilBERT和ERNIE-VIL的双塔结构。

从2020年9月开始,通过一系列的实验和探索,文澜的研发团队独立提出了基于多模态对比学习的双塔结构,跟2021年1月发布的OpenAI CLIP在模型结构上不谋而合。

文澜团队推出的第一代图文互检模型在论文中叫做BriVL (Bridging Vision and Language),BriVL具有如下四个特点和优势。

1. 基于视觉-语言弱相关的假设

现有的大量多模态预训练模型,特别是单塔结构,往往会采用如下强假设:对于输入的数据,图像与文本之间存在较强的语义相关性。例如,对于下面这张蛋糕的图片,会假设在多模态数据集中对应“水果蛋糕上有一些蜡烛在燃烧”这样描述性的文本。

正是有了语义相关性上的强假设,单塔结构才能在词汇与局部图像特征之间进行模态交互。但遗憾的是,在实际应用场景中,上述的强假设往往并不成立,比如视觉与语言之间通常只有较抽象的关联。例如,对于蛋糕的照片,配的文字可以是“生日快乐,许个愿吧”,也可以引申到“哎,我的减肥大计又泡汤了”。

文澜的研发者们进行了一系列的实验和探索,实验结果表明,在开放获取(例如互联网上的公开数据)的图文数据集上,简单的双塔结构要优于单塔结构。因此,BriVL采用了双塔结构作为多模态预训练模型的基本架构。

2. 将多模态与对比学习算法相结合

基于双塔结构的预训练模型网络结构比较简单,需要弥补神经网络在表达能力上的损失。近两年来,自监督学习有着飞速的进展,对比学习被发现可以用来提高神经网络的表达能力。

基于这一点,文澜的开发团队将对比学习引入到了BriVL的双塔结构中。不同于CLIP,对于给定的某一对图文数据,BriVL同时使用了视觉模态和语言模态去构建该图文数据的负样本,并且基于MoCo的思想扩大负样本数目,从而进一步提高神经网络的表达能力。

3. 网络结构灵活,方便实际部署

BriVL首先使用了独立的语言和视觉编码器提取语言和视觉信息的特征向量,然后将这些向量传入到对比学习模块中进行训练。采用这样的双塔结构,可以很方便地把编码器模块替换为最新的单模态预训练模型,从而可以持续地增强模型表达的能力。

在训练完毕后,BriVL可以对外提供获取图像和语言的向量特征的API,便于在下游任务中部署。特别地,与向量检索引擎的结合可以极大地提高图文检索效率。

此外,BriVL模型也可以再融入其他的预训练任务,例如图像caption任务等。

4. 目前最大的中文多模态通用预训练模型

文澜团队使用RUC-CAS-WenLan多源图文数据集对BriVL进行预训练。

RUC-CAS-WenLan是文澜团队构建的超大规模预训练数据集,该多源图文数据集来自网页用户产生的图文数据。文澜团队的数据组从互联网获取原始数据后,对数据进行了一系列的清洗工作,从而构建了包含5500万对图文数据的RUC-CAS-WenLan通用多模态数据集。RUC-CAS-WenLan的内容十分丰富,涵盖了新闻,体育,娱乐,文化,生活等多个主题。

第一代文澜使用了3000万对图文数据,训练得到的BriVL模型的初始版本有10亿参数量,此阶段的BriVL模型在RUC-CAS-WenLan测试集和AIC-ICC测试集上的性能均超过了UNITER和CLIP。

在未来,文澜团队将使用5亿级别的图文数据作为预训练数据集,BriVL的参数量将达到百亿级别。

成为VIP会员查看完整内容
65

相关内容

多模态预训练模型简述
专知会员服务
109+阅读 · 2021年4月27日
专知会员服务
60+阅读 · 2021年2月16日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【NeurIPS2020-华为】DynaBERT:具有自适应宽度和深度的动态BERT
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知会员服务
37+阅读 · 2020年3月31日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
BERT模型进军视频领域,看你和面就知会做蛋糕
机器之心
10+阅读 · 2019年9月20日
谷歌最强 NLP 模型 BERT 解读
雷锋网
7+阅读 · 2018年10月23日
解读谷歌最强NLP模型BERT:模型、数据和训练
未来产业促进会
5+阅读 · 2018年10月20日
年度增速黑马快视频 是谁将它推向神坛
Analysys易观
4+阅读 · 2018年1月26日
Arxiv
0+阅读 · 2021年5月13日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
VIP会员
相关资讯
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
BERT模型进军视频领域,看你和面就知会做蛋糕
机器之心
10+阅读 · 2019年9月20日
谷歌最强 NLP 模型 BERT 解读
雷锋网
7+阅读 · 2018年10月23日
解读谷歌最强NLP模型BERT:模型、数据和训练
未来产业促进会
5+阅读 · 2018年10月20日
年度增速黑马快视频 是谁将它推向神坛
Analysys易观
4+阅读 · 2018年1月26日
微信扫码咨询专知VIP会员