多模态学习研讨会：预训练是AI未来所需要的全部吗？

2019 年 12 月 18 日 微软研究院AI头条

编者按：文字、图片、语音、视频……我们的日常生活充满了不同模态的数据，涉及不同模态数据交互的任务也越发普遍。最近，微软亚洲研究院举办了一场多模态表征学习与应用研讨会，与来自亚太高校的多位学者深度探讨了多模态学习的现状与未来趋势。

今天，我们生活在一个由大量不同模态内容（文本、图像、视频、音频、传感器数据、3D 等）构建而成的多媒体世界中，这些不同模态的内容在具体事件和应用中具有高度相关性。跨模态任务也越来越多，涉及多个模态的数据的交互，例如图像和视频的检索，字幕，视频摘要，文本到图像和视频的预测与合成，语言驱动的时空动作定位，以及视觉常识推理等等。

因此，跨模态学习日益引起了学术界和工业界的关注。跨模态学习进行联合特征学习和跨模态关系建模，旨在有效地利用不同模态内容的相关性进行系统性能优化。对多模态内容的深入理解主要依赖于特征学习、实体识别、知识图谱、逻辑推理、语言表达等方面的多种技术。

近日，微软亚洲研究院举行多模态表征学习与应用研讨会，与来自首尔国立大学、台湾大学、清华大学和中科院的学者们深度探讨了多模态表征学习在多媒体应用服务方面的最新研究进展和未来发展趋势，以推动整个领域向更好的方向发展。

多模态表征学习与应用研讨会

预训练的崛起

多模态学习在多媒体领域并不新鲜。早在20世纪90年代中期，多媒体领域开始“起飞”之时，人们就开始研究多模态学习的问题。那么，为什么它最近再次成为研究热点呢？

通常，技术的崛起很大程度上取决于底层技术的发展和突破。多模态学习对于实际系统的性能优化至关重要，同时也是一个难题。它通常需要将不同模态数据嵌入到一个公共表示空间中，以便进行对齐、比较和融合。在早期，人们使用手工方法，根据先验知识和常识寻找一个良好的嵌入空间，但如何找到最佳嵌入空间是一个极其困难的问题。而现在，借助深度学习技术已经能够轻松寻找良好的嵌入空间，但是目前大多数深度学习方法依赖于大量有标注的数据，要想获得更好的性能，就必须拥有更多的有标注数据，这成为了一个主要瓶颈。在实践中，对大量数据进行标注并使训练收敛到最佳位置，其困难程度丝毫不亚于手工制作一个良好的嵌入空间。对于多模态学习更是如此，因为它需要同步标注对齐的多模态数据，例如图像和语音对齐。

2018 年，用于自然语言表示建模的 BERT 技术（即由变型器组成的双向编码器表示技术） [1] 的出现，为深度学习摆脱对有标注数据的依赖提供了一种新选择。理论上，基于 BERT 技术可以利用无限量的未标注数据作预训练，然后再利用针对特定任务的少量有标注数据进行微调，进而实现对不同任务（如问题解答和语言推理）的优化。此后，类似 BERT 的无监督预训练技术在许多自然语言处理任务中取得了突破性进展。

事实上，预训练技术在计算机视觉任务的有监督学习中早已得到广泛应用。例如，把为 ImageNet 分类任务预先训练的网络作为初始状态来训练其他视觉任务（如目标检测和语义分割）是非常流行的做法，并可以显著提高性能。当预训练技术在 BERT 中应用时发挥出了极高的应用效能，因为它可以借助无限量的无标注数据，以无监督的方式预训练好各种功能。这从根本上解决了大数据问题。

提供大量有标记多模态数据一直是解决多模态学习问题（如理解、转换和生成）的一个重大挑战，类似 BERT 的无监督预训练技术很好的解决了这一难题，并且可以显著提高系统整体性能。例如，在本次研讨会上，微软亚洲研究院的研究人员展示了在视觉语言任务中的通用表示预训练 [2]、具有视觉内容的多模态自然语言处理 [3]，以及视频语言跨模态任务的预训练 [4] 等方面所取得的重大进展。其中，部分技术成果已经转化到微软核心产品中，取得了良好的应用效果。

然而，挑战依然存在。掌握大量匹配的多模态数据仍然是少数大公司的一项特权，不同模态之间的精细对齐问题，以及多模态预训练的有效架构，这些问题依然具有挑战性。例如，我们是否应该对多模态模型进行联合预训练？亦或是应该先对各个模态分别进行预训练，然后再找到融合的方法？对于大多数研究机构而言，计算和存储能力是有效开展预训练主要瓶颈。正如此次研讨会所展示的，大多数预训练相关工作是由来自谷歌、微软和 Facebook 等少数行业巨头的研究人员完成的。学术界很难具备预训练所需的计算和存储能力。于是，他们更注重通过结合更多的模态，有效和高效的网络架构设计，以及有效利用人类知识来提高系统性能。也有研究人员开始尝试通过更好的架构和更小的模型实现更快的预训练，从而降低对计算和存储能力的需求。

预训练是 AI 未来所需要的全部吗？

本次研讨会也对这个问题进行了深入的讨论。计算和存储能力的挑战是一个普遍存在的问题，即使对于业界公司来说，足够的计算和存储资源也是重大瓶颈。

我们一致认为，预训练将是未来 AI 的非常重要的组成部分，但我们需要的不止这些。人类丰富的先验知识需要有效地集成到系统中，以减少我们对大数据、模型和计算的依赖。此外，学术界与工业界可以密切合作，充分发挥双方的优势。例如，高校开设了许多学科，因此在跨学科研究方面具有天然优势，而工业界在数据收集和计算资源方面实力雄厚。如果有更多的开源项目，让更多的人能够参与到相关研究中并做出贡献，必将有力推动技术快速向前发展。

另外，应该重视 AI 系统的可解释性。无监督的预训练在很大程度上是由数据驱动，这意味着它存在黑箱算法的局限性，如果不了解黑匣子里发生了什么，那么将来研究人员和实践者有可能构建出不能明确解释的系统，这显然存在较高的风险且令人担忧。

本文融入了多模态表示学习与应用研讨会中诸位专家表达的观点。感谢参加此次研讨会的各位来宾和主讲嘉宾曹越研究员、陈熙霖教授、段楠研究员、徐宏民教授、纪蕾研究员、Gunhee Kim教授、鲁继文教授和罗翀研究员，感谢他们为推动这个领域向前发展所作的贡献和巨大努力。

参考文献：

[1] Devlin, J.; Chang, M.-W.; Lee, K.; and Toutanova, K. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proc. of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1 (Long and Short Papers), 4171–4186.

[2] Su, W.; Zhu X.; Cao, Y.; Li, B.; Lu, L.; Wei, F.; Dai, J. 2019. VL-BERT: Pre-training of Generic Visual-Linguistic Representations. arXiv:1908.08530 [cs.CV].

[3] Li, G.; Duan,N.; Fang, Y.; Jiang, D., Zhou, M. 2019. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training. To appear in AAAI 2020. arXiv:1908.06066 [cs.CV].

[4] Shi, B.; Ji, L.; Liang, Y.; Niu, Z.; Duan, N.; Zhou, M. 2019. Dense Procedure Captioning in Narrated Instructional Videos. ACL, 2019.