我们对世界的体验是多模态的——我们看到物体,听到声音,感觉到纹理,闻到气味,尝到味道。模态是指某件事情发生或经历的方式,一个研究问题如果包含多个模态,就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这种多模态信号。多模态机器学习旨在建立能够处理和关联来自多种模式的信息的模型。这是一个日益重要和具有非凡潜力的充满活力的多学科领域。

知识荟萃

多模态机器学习(Multimodal Machine Learning)专知荟萃

综述

模型算法

表示学习

多模态融合

多模态对齐

多模态翻译

Missing or Imperfect Modalities

知识图谱和知识库

可解释学习

生成式学习

半监督学习

自监督学习

语言模型

Adversarial Attacks

小样本学习

应用

语言和视觉问答

Language Grounding in Vision

Language Grouding in Navigation

多模态机器翻译

Multi-agent Communication

常识推理

多模态强化学习

多模态对话

语言和音频

音频和视频

多媒体描述

Video Generation from Text

Affect Recognition and Multimodal Language

医疗

Robotics

WorkShops

Tutorials

视频教程

微信扫码咨询专知VIP会员