多模态摘要(Multi-modal Summarization)是指输入多种模态信息,通常包括文本,语音,图像,视频等信息,输出一段综合考虑多种模态信息后的核心概括。目前的摘要研究通常以文本为处理对象,一般不涉及其他模态信息的处理。然而,不同模态的信息是相互补充和验证的,充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容,生成更好的摘要。本文首先按照任务类型与模态信息是否同步对多模态摘要进行分类;接着介绍多模态表示中的一些基础知识;最后按照任务类型分类,简述了近几年多模态摘要在教学型视频、多模态新闻、多模态输入多模态输出以及会议中的相关工作,最后给出一些思考与总结。
本文从任务分类的角度,简单介绍了多模态摘要的相关工作。尽管多模态摘要已经取得了一定的进展,但是依旧存在以下几个关键点值得认真思考:
(1)现有模型结构简单。现有模型架构基本为序列到序列模型结合层次化注意力机制,不同的工作会依据任务特点进行一定的改进。为了更有效的融合多模态信息,发挥模态信息的交互互补作用,在目前架构的基础上,应该思考更加合适的架构。
(2)不同模态信息交互较少。现有工作模态融合的核心在于层次化注意力机制,除此以外,不同模态信息缺少显式的交互方式,无法充分的发挥模态信息之间的互补关系。
(3)依赖于人工先验知识。通常来讲,需要人为预先选择不同类型的预训练特征抽取模型进行特征提取,这一过程依赖于很强的人工判断来预先决定有效的特征,需要一定的领域专业知识。
(4)数据隐私性考虑少。多模态数据在提供更丰富信息的同时,也给数据保密带来了一定的挑战。例如多模态会议数据,其中的声纹特征与脸部特征都是非常重要的个人隐私信息。因此在实际落地中需要充分考虑数据隐私性问题。
(5)单一文本输出缺少多样性。现有工作已经开始尝试多模态输入多模态输出,当输出摘要包含多种模态时,可以满足更广泛人群的需求。例如对于语言不熟悉时,可以通过视频和图片快速了解重要内容。在未来多模态摘要输出也将成为一个重要的研究关注点。
总体而言,在多模态火热发展的大背景下,多模态摘要作为其中的一个分支既具有多模态学习的共性问题,也具有摘要任务自身的个性问题,该任务在近几年开始蓬勃发展,在未来也会成为一个重要的研究方向。
[1] Jindřich Libovický and Jindřich Helcl. Attention strategies for multi-source sequence-to-sequence learning. ACL 2017. https://www.aclweb.org/anthology/P17-2031
[2] Yansen Wang, Ying Shen, Zhun Liu, P. P. Liang, Amir Zadeh, and Louis-Philippe Morency. Words can shift: Dynamically adjusting word representations using nonverbal behaviors. AAAI 2019.
[3] Gen Li, N. Duan, Yuejian Fang, Daxin Jiang, and M. Zhou. Unicoder-vl: A universal encoder forvision and language by cross-modal pre-training. AAAI 2020.
[4] R. Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Loïc Barrault, Lucia Specia,and F. Metze. How2: A large-scale dataset for multimodal language understanding. NeurIPS 2018.
[5] Shruti Palaskar, Jindřich Libovický, Spandana Gella, and F. Metze. Multimodal abstractive summarization for how2 videos. ACL 2019.
[6] Haoran Li, Junnan Zhu, C. Ma, Jiajun Zhang, and C. Zong. Multi-modal summarization forasynchronous collection of text, image, audio and video. 2017.
[7] Haoran Li, Junnan Zhu, Tianshang Liu, Jiajun Zhang, and C. Zong. Multi-modal sentence summarization with modality attention and image filtering. IJCAI 2018.
[8] Junnan Zhu, Haoran Li, Tianshang Liu, Y. Zhou, Jiajun Zhang, and C. Zong. Msmo: Multimodal summarization with multimodal output. EMNLP 2018.
[9] Junnan Zhu, Yin qing Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, and Changliang Li. Multimodal summarization with guidance of multimodal reference. AAAI 2020.
[10] B. Erol, Dar-Shyang Lee, and J. Hull. Multimodal summarization of meeting recordings. ICME 2003.
[11] Fumio Nihei, Yukiko I. Nakano, and Yutaka Takase. Fusing verbal and nonverbal information forextractive meeting summarization. GIFT 2018.
[12] Manling Li, L. Zhang, H. Ji, and R. Radke. Keep meeting summaries on topic: Abstractive multimodal meeting summarization. ACL 2019.