多模态机器学习(MMML)是一个充满活力的多学科研究领域,通过整合和建模多种交流模态(包括语言、声音和视觉信息)来实现人工智能的一些原始目标。随着对视听语音识别的初步研究,以及最近的语言和视觉项目,如图像和视频字幕,这个研究领域给多模态研究人员带来了一些独特的挑战,因为数据的异质性和模式之间经常发现的偶然性。本课程将教授与MMML相关的基本数学概念,包括多模态对齐与融合、异质表示学习和多流时间建模。我们还将回顾最近描述最先进的MMML概率模型和计算算法的论文,并讨论当前和即将面临的挑战。
本课程将介绍机器学习和深度学习中与多模态机器学习中的五个主要挑战相关的基本数学概念:(1)多模态表示学习,(2)平移与映射,(3)模态对齐,(4)多模态融合和(5)协同学习。这些包括但不限于,多模态自动编码器,深度典型相关分析,多核学习,注意力模型和多模态递归神经网络。本课程还将讨论MMML的许多最新应用,包括多模式的情感识别、图像和视频字幕以及跨模式的多媒体检索。
课程目录: