【CMU博士论文】多感官人工智能的基础

构建能从文本、语音、视频、现实世界传感器、可穿戴设备和医疗数据等多种感官输入中学习的多感官人工智能系统，在许多具有实际益处的科学领域展现出巨大的影响潜力，例如在支持人类健康与福祉、使多媒体内容处理以及增强现实世界自主代理的应用中。然而，多模态研究进展的广度使得难以识别该领域的共同主题和开放性问题。通过综合多种理论框架和应用领域，本论文旨在推进多模态机器学习的基础。我们首先定义多模态问题中常见的三个关键原则：模态异质性、连接和交互。基于这些原则，我们提出了多模态研究的六个核心挑战的分类体系：表征、对齐、推理、生成、转移和量化。通过这个分类体系，将展示最近的技术成就，使研究者能够理解不同方法之间的相似性和差异，并识别未来研究的开放问题。本论文的主要内容涵盖了我们最近在解决多模态学习中两个关键问题方面的进展：多模态交互的机器学习基础以及构建在现实世界中广泛适用于多种模态和任务的多感官基础模型的实用方法。在第一部分，我们研究多模态交互的基础：即模态如何结合产生任务所需的新信息的基本原理。我们提出了一个理论框架，用于形式化模态如何相互作用以产生任务所需的新信息，例如从言语和声音表达之间的不一致性中识别出的讽刺。使用这个理论框架，我们提出了两个实用的估算器，以量化实际数据集中的交互。量化多模态任务所需的交互类型，使研究者能够决定收集哪种模态，设计合适的学习这些交互的方法，并分析他们的模型是否成功地学习了这些交互。在第二部分，我们研究了设计实用的多模态基础模型，这些模型可以广泛地适用于多种模态和任务，这是将大型语言模型与现实世界感官模态相结合的一步。我们首先引入MULTIBENCH，一个跨广泛模态、任务和研究领域的统一大规模基准测试。我们还将介绍现在支持今天许多多模态基础模型的跨模态注意力和多模态变换器架构。在MULTIBENCH上扩展这些架构，使得创建适用于多种任务的通用多模态多任务模型成为可能，我们已与实践者广泛合作，将这些模型应用于情感计算、心理健康和癌症预后的实际影响中。我们在论文的最后讨论如何利用这些思想，朝着更通用、交互性更强和更安全的多模态人工智能迈进。

多模态人工智能是一个充满活力的跨学科研究领域，旨在设计能够通过多种交流方式（包括语言、声学、视觉、触觉、感官和生理信息）感知、推理和交互的计算机代理[46, 375]。多模态AI系统在许多具有实际益处的科学领域都能带来巨大影响，例如支持人类健康与福祉[360, 427, 716]、使多媒体内容处理[11, 486, 514]，以及增强现实世界自主代理[63, 93, 334, 523, 546]。然而，多模态研究的广泛进展使得难以识别该领域的共同主题和开放性问题。本论文通过综合历史和近期视角下的广泛理论框架和应用领域，旨在推进多模态机器学习的理论和计算基础。我们首先定义多模态问题中常见的三个关键原则：模态异质性、连接和交互，这些原则带来了机器学习的独特挑战。多模态数据的异质性使学习变得具有挑战性，例如，语言通常被视为符号性的，而音频和视频则被表示为连续信号。同时，这些模态包含重叠的连接信息，并互动以产生任务相关的新信息。学习这些连接和互动对于系统的良好性能至关重要。基于这些原则，我们提出了多模态研究的六个核心挑战的分类体系：表征、对齐、推理、生成、转移和量化。通过这个分类体系的视角，将展示最近的技术成就，使研究者能够理解新方法之间的相似性和差异，并帮助我们识别未来研究的关键开放问题。利用我们的多模态机器学习分类体系，我们强调了多模态学习进展中的两个关键挑战：（1）建立多模态交互的基础，以便我们能够量化数据集中存在的交互并使用机器学习方法正确地模拟这些交互；（2）构建能够在大量模态和任务中实现泛化的多模态模型和数据集，以产生真实世界的社会影响（图1.1）。

成为VIP会员查看完整内容

相关内容

博士论文

关注 97

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】可解释、可信赖和可靠的人工智能，191页pdf

专知会员服务

76+阅读 · 4月9日

【博士论文】深度学习的基本组成部分：范畴论方法，272页pdf

专知会员服务

55+阅读 · 3月22日

【ETHZ博士论文】神经场景表示用于三维重建和场景理解

专知会员服务

31+阅读 · 3月15日

【博士论文】图神经网络算法推理，135页pdf

专知会员服务

39+阅读 · 2月23日