多模态机器学习是一个充满活力的多学科研究领域,通过设计计算机代理来解决人工智能的一些原始目标,这些代理能够通过整合和建模多种交互模态,包括语言、听觉和视觉信息。随着对视听语音识别的初步研究,以及近年来对图像和视频字幕、视觉问答和语言引导强化学习等语言和视觉项目的研究,这一研究领域给多模态研究人员带来了一些独特的挑战,因为数据的异质性和模态之间的偶然性经常被发现。
多模态机器学习(MMML)是一个充满活力的多学科研究领域,研究从多个模态建模异构数据的计算方法。本课程介绍机器学习和深度学习的基本概念,涉及多模态机器学习的五个主要挑战:(1)多模态表示,(2)模态对齐,(3)多模态推理,(4)翻译和映射,(5)协同学习。本讲座还讨论了最新的多模态深度学习模型和方向。