多模态摘要简述

多模态摘要（Multi-modal Summarization）是指输入多种模态信息，通常包括文本，语音，图像，视频等信息，输出一段综合考虑多种模态信息后的核心概括。目前的摘要研究通常以文本为处理对象，一般不涉及其他模态信息的处理。然而，不同模态的信息是相互补充和验证的，充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容，生成更好的摘要。本文首先按照任务类型与模态信息是否同步对多模态摘要进行分类；接着介绍多模态表示中的一些基础知识；最后按照任务类型分类，简述了近几年多模态摘要在教学型视频、多模态新闻、多模态输入多模态输出以及会议中的相关工作，最后给出一些思考与总结。

本文从任务分类的角度，简单介绍了多模态摘要的相关工作。尽管多模态摘要已经取得了一定的进展，但是依旧存在以下几个关键点值得认真思考：

（1）现有模型结构简单。现有模型架构基本为序列到序列模型结合层次化注意力机制，不同的工作会依据任务特点进行一定的改进。为了更有效的融合多模态信息，发挥模态信息的交互互补作用，在目前架构的基础上，应该思考更加合适的架构。

（2）不同模态信息交互较少。现有工作模态融合的核心在于层次化注意力机制，除此以外，不同模态信息缺少显式的交互方式，无法充分的发挥模态信息之间的互补关系。

（3）依赖于人工先验知识。通常来讲，需要人为预先选择不同类型的预训练特征抽取模型进行特征提取，这一过程依赖于很强的人工判断来预先决定有效的特征，需要一定的领域专业知识。

（4）数据隐私性考虑少。多模态数据在提供更丰富信息的同时，也给数据保密带来了一定的挑战。例如多模态会议数据，其中的声纹特征与脸部特征都是非常重要的个人隐私信息。因此在实际落地中需要充分考虑数据隐私性问题。

（5）单一文本输出缺少多样性。现有工作已经开始尝试多模态输入多模态输出，当输出摘要包含多种模态时，可以满足更广泛人群的需求。例如对于语言不熟悉时，可以通过视频和图片快速了解重要内容。在未来多模态摘要输出也将成为一个重要的研究关注点。

总体而言，在多模态火热发展的大背景下，多模态摘要作为其中的一个分支既具有多模态学习的共性问题，也具有摘要任务自身的个性问题，该任务在近几年开始蓬勃发展，在未来也会成为一个重要的研究方向。

[1] Jindřich Libovický and Jindřich Helcl. Attention strategies for multi-source sequence-to-sequence learning. ACL 2017. https://www.aclweb.org/anthology/P17-2031

[2] Yansen Wang, Ying Shen, Zhun Liu, P. P. Liang, Amir Zadeh, and Louis-Philippe Morency. Words can shift: Dynamically adjusting word representations using nonverbal behaviors. AAAI 2019.

[3] Gen Li, N. Duan, Yuejian Fang, Daxin Jiang, and M. Zhou. Unicoder-vl: A universal encoder forvision and language by cross-modal pre-training. AAAI 2020.

[4] R. Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Loïc Barrault, Lucia Specia,and F. Metze. How2: A large-scale dataset for multimodal language understanding. NeurIPS 2018.

[5] Shruti Palaskar, Jindřich Libovický, Spandana Gella, and F. Metze. Multimodal abstractive summarization for how2 videos. ACL 2019.

[6] Haoran Li, Junnan Zhu, C. Ma, Jiajun Zhang, and C. Zong. Multi-modal summarization forasynchronous collection of text, image, audio and video. 2017.

[7] Haoran Li, Junnan Zhu, Tianshang Liu, Jiajun Zhang, and C. Zong. Multi-modal sentence summarization with modality attention and image filtering. IJCAI 2018.

[8] Junnan Zhu, Haoran Li, Tianshang Liu, Y. Zhou, Jiajun Zhang, and C. Zong. Msmo: Multimodal summarization with multimodal output. EMNLP 2018.

[9] Junnan Zhu, Yin qing Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, and Changliang Li. Multimodal summarization with guidance of multimodal reference. AAAI 2020.

[10] B. Erol, Dar-Shyang Lee, and J. Hull. Multimodal summarization of meeting recordings. ICME 2003.

[11] Fumio Nihei, Yukiko I. Nakano, and Yutaka Takase. Fusing verbal and nonverbal information forextractive meeting summarization. GIFT 2018.

[12] Manling Li, L. Zhang, H. Ji, and R. Radke. Keep meeting summaries on topic: Abstractive multimodal meeting summarization. ACL 2019.

成为VIP会员查看完整内容