多模态人机交互旨在利用语音、图像、文本、眼动和触觉等多模态信息进行人与计算机之间的信息交换。在生理心理评估、办公教育、军事仿真和医疗康复等领域具有十分广阔的应用前景。本文系统地综述了多模态人机交互的发展现状和新兴方向,深入梳理了大数据可视化交互、基于声场感知的交互、混合现实实物交互、可穿戴交互和人机对话交互的研究进展以及国内外研究进展比较。本文认为拓展新的交互方式、设计高效的各模态交互组合、构建小型化交互设备、跨设备分布式交互、提升开放环境下交互算法的鲁棒性等是多模态人机交互的未来研究趋势。
受益于物联网的发展,人机交互设备在人们的 日常生活中得到了广泛应用。 近年来,计算机视觉、 手势识别和人工智能等技术蓬勃发展,头戴式设备、 显示屏和传感器等硬件技术取得了明显的进步,人 机交互不再局限于单一感知通道(视觉、触觉、听 觉、嗅觉和味觉)的输入输出模态(Bourguet,2003)。 多模态人机交互旨在利用语音、图像、文本、眼 动和触觉等多模态信息进行人与计算机之间的信息 交换。 其中包括人到计算机的多模态信息输入与计 算机到人的多模态信息呈现,是与认知心理学、人机 工程学、多媒体技术和虚拟现实技术等密切相关的 综合学科。 目前,多模态人机交互与图像图形领域 中的各类学术和技术联合得越来越紧密。 多模态人 机交互技术作为人—机—物的技术载体,在大数据 与人工智能时代,其学术和技术发展前沿与图像图 形学、人工智能、情感计算、生理心理评估、互联网大 数据、办公教育和医疗康复等领域发展息息相关。 多模态人机交互研究最早出现在 20 世纪 90 年代, 多项工作提出了将语音和手势融合在一起的交互方 法 ( Pavlovic 等, 1997; Ando 等, 1994; Cassell 等, 1994)。 近几年,沉浸式可视化( Jansen 等,2014)的 出现为人机交互提供了一个新的多模态交互界面: 一个融合了视觉、听觉和触觉等多个感知通道的沉 浸式环境。
在学术 界, 多 模 态 人 机 交 互 的 学 术 成 果 在 IEEE-TPAMI( IEEE Transactions on Pattern Analysis and Machine Intelligence)、IEEE-TIP( IEEE Transaction on Image Processing)、IEEE-TASLP( IEEE / ACM Transactions on Audio, Speech and Language Processing)、IEEE-TNNLS(IEEE Transactions on Neural Networks and Learning Systems )、 ACM-TOCHI ( ACM Transactions on Computer-Human Interaction) 等国际 期刊和 CHI(Computer-Human Interaction)、UbiComp (Ubiquitous computing)、CSCW(ACM Conference on Computer-Supported Cooperative Work and Social Computing)等国际会议呈现稳步增长,创新成果层 出不穷。 在产业界,语音、人脸和手势等新型交互的应用 从噱头转趋理性,聚焦于车载、直播等特定场景。 触 屏搭配一种新模态的交互方式,是当前多模态交互 产品落地的主要形态。 增强现实等新型输出/ 显示 模态的技术逐渐成为未来多模态人机交互产品新的 主要场景。 各国政府高度重视多模态人机交互。 在“十三 五”期间,我国设立多项重大重点项目支持多模态 人机交互方向的研究。 例如,国家重点研发计划项 目“基于云计算的移动办公智能交互技术与系统”、 “多模态自然交互的虚实融合开放式实验教学环 境”等。 美国海军开始构建下一代舰艇多模态人机 交互模式,采用全息化的指挥模式,通过佩戴视觉和 触觉传感器对舰船进行控制。 英国海军公布的 T2050 未来水面舰艇概念,以多模态人机交互的方 式,有效提高工作效率。
本文旨在综述多模态人机交互的最新进展,帮 助初学者快速了解和熟悉多模态人机交互领域;对 多模态人机交互方式进行分类整理,帮助该领域的 研究者更好地理解多模态人机交互中的各种技术; 对多模态人机交互领域面临的机遇和挑战进行梳 理,启发相关研究者做出更有价值的多模态人机交 互工作。 本文将从多模态信息输入与多模态信息输出两 方面对多模态交互技术进行综述。 其中,多模态信 息输入过程涉及可穿戴交互技术以及基于声场感知 的输入交互技术。 多模态信息呈现过程涉及大数据 可视化交互技术、混合现实交互技术以及人机对话 交互技术。 下面分别从大数据可视化交互、基于声 场感知的交互、混合现实实物交互、可穿戴交互和人 机对话交互 5 个维度介绍多模态人机交互的研究进 展。 内容框架如图 1 所示。