Multi-modal pretraining for learning high-level multi-modal representation is a further step towards deep learning and artificial intelligence. In this work, we propose a novel model, namely InterBERT (BERT for Interaction), which is the first model of our series of multimodal pretraining methods M6 (MultiModality-to-MultiModality Multitask Mega-transformer). The model owns strong capability of modeling interaction between the information flows of different modalities. The single-stream interaction module is capable of effectively processing information of multiple modalilties, and the two-stream module on top preserves the independence of each modality to avoid performance downgrade in single-modal tasks. We pretrain the model with three pretraining tasks, including masked segment modeling (MSM), masked region modeling (MRM) and image-text matching (ITM); and finetune the model on a series of vision-and-language downstream tasks. Experimental results demonstrate that InterBERT outperforms a series of strong baselines, including the most recent multi-modal pretraining methods, and the analysis shows that MSM and MRM are effective for pretraining and our method can achieve performances comparable to BERT in single-modal tasks. Besides, we propose a large-scale dataset for multi-modal pretraining in Chinese, and we develop the Chinese InterBERT which is the first Chinese multi-modal pretrained model. We pretrain the Chinese InterBERT on our proposed dataset of 3.1M image-text pairs from the mobile Taobao, the largest Chinese e-commerce platform. We finetune the model for text-based image retrieval, and recently we deployed the model online for topic-based recommendation.


翻译:学习高层次多模式代表的多模式预培训是走向深层次学习和人工智能的又一个步骤。在这项工作中,我们提出了一个新的模式,即InterBERT(互动平台),这是我们一系列多式联运预培训方法M6(多模式至多模式多模式M6)的第一个模式。模型拥有不同模式信息流之间模拟互动的强大能力。单流互动模块能够有效处理多模式和人工智能信息,顶部双流模块维护了每种模式的独立性,以避免单一模式任务中的性能下降。我们以三种培训前任务预培训模式预设模式,包括蒙面段建模M6(MSMM)、蒙面建模(MRMM)和图像版本前匹配(ITMM);将模型的模型精细化为一系列基于愿景和语言的模型下游任务。实验结果表明,内部专家小组在中国模型中超越了一套最强的基线,包括最新的多模式前电子培训方法中,我们用最先进的电子格式预读取,并且分析显示,IMRMM和S-S-S-S-S-SIM-S-S-SIM-Ser-SIM-SIM-S-S-S-S-S-SIM-SIM-S-S-SIM-SIM-SIM-SIM-S-S-S-S-S-SIM-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-SIR-M-M-M-M-M-M-M-M-M-SIR-M-SIR-SIR-M-M-M-M-S-S-SD-M-S-SD-M-SD-S-S-S-SD-S-S-S-S-S-SD-M-M-SD-S-M-SAR-M-SD-SAR-SAR-SAR-SAR-SAR-SAR-SAR-SAR-SAR-SAR-SAR-SM-S-M-SM-S-S-SMA-SMA-SMA-SMA-S-S-S-S-MMM-S-S-S-S

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
最新《Transformers模型》教程,64页ppt
专知会员服务
324+阅读 · 2020年11月26日
IJCAI2020接受论文列表,592篇论文pdf都在这了!
专知会员服务
64+阅读 · 2020年7月16日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
8+阅读 · 2021年3月2日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关资讯
ERNIE Tutorial(论文笔记 + 实践指南)
AINLP
30+阅读 · 2019年8月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员