在过去的十年中,创新型人工神经网络模型取得了非凡的发展。这些模型大多只能处理一种模式,而模式可以被认为是一种通信渠道或一种数据类型,如文本或图像。然而,在过去几年中,基于新型变压器架构的机器学习模型在需要联合处理两种或多种模态的任务中取得了令人瞩目的成果。多模态能力使这些模型更适合处理多模态世界中出现的各种问题。
迄今为止,最著名的多模态模型是那些结合文本和图像的模型,例如根据文本提示生成图像或回答有关图像的问题。同样,结合文本和视频的模型也在不断进步。还有一些模型将文本和声音结合起来,用于生成音乐,或用于文本到语音和语音到文本的转换。此外,还有一些模型能够结合两种以上的模式,为数据融合和机器人等领域复杂问题的新解决方案奠定了基础。例如,虽然工业机器人在受控环境中运行良好,但在非受控环境中的多功能机器人需要能够根据来自各种传感器的输入执行敏捷的任务和运动规划。机器人多模态模型的早期工作就体现了这种能力。
本报告概述了多模态神经网络模型领域的最新发展。报告精选了近年来开发的多模态模型。重点是处理媒体数据的模型,其中媒体数据应理解为主要用于人类交流的数据,如文本、图像、声音和视频。
虽然目前使用的多模态模型有其局限性,但它们自动进行多模态推理的部分能力令人印象深刻,以至于我们不得不问自己,多模态机器学习模型在未来几年会以何种方式影响我们的生活。