简介: 每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。多模态信息处理是一个老问题,但真正理解多模态仍然是一个麻烦问题。
从多模态中可以获取多种信息,比如视频中可以获得场景信息与人物信息、文本特征可以获取关系信息与情节信息、音频特征中可以获得情感信息等等。深度分析这些特征中潜在的信息会获得更多有用的信息。
然而获取语义信息存在极大的挑战,从理论层面来说,机器不理解人的思维方式,这样会导致“语义鸿沟”的现象;数据层面,缺乏规范化标注语料,各模态信息难以解释与关联。因此本教程中提出通过融模态语义理解和多模态语义关联来加深层次语义理解。