我们人类通过不同的感官学习语言并与世界互动,将我们的语言基础建立在我们所能看到、触摸、听到和闻到的事物上。我们将这些信息流称为不同的模态,而我们对不同模态之间互动的高效处理和综合是我们智慧的基石。因此,研究如何构建多模态语言模型非常重要,其中机器学习模型不仅仅从文本中学习。这在大型语言模型(LLMs)时代尤为重要,因为它们的一般能力尚不清晰且不可靠。本论文研究了多模态语言模型中的学习和推理及其在视觉问答任务中组合泛化的能力。组合泛化是指我们通过系统地组合词语和句子来揭示语言中的意义,从而产生和理解新句子的过程,这对神经网络来说是一个挑战。以往的文献主要关注文本语言模型中的组合泛化,而本研究的主要贡献之一是对文本-图像语言模型的广泛研究。本论文中的实验比较了三种基于神经网络的模型和一种神经符号方法,并将语言基础操作化为利用对象功能进行推理的能力。
为了更好地理解多模态模型的能力,本论文引入了CLEVR-Math作为视觉数学推理的合成基准。CLEVR-Math数据集包括基于文本指令对3D场景中的对象进行添加和移除的任务,例如“移除所有蓝色立方体。剩下多少个物体?”,并作为一系列复杂度逐渐增加的任务课程。CLEVR-Math的评估集包括对不同功能和对象属性泛化的广泛测试。我们使用一种称为探测的方法来揭示这些模型的内部表示,在该方法中训练线性分类器从输入数据的内部嵌入中恢复颜色或命名实体等概念。结果显示,尽管模型在属性泛化(即解决涉及从未见过的对象的任务)方面表现相当好,但在功能泛化和学习类别等抽象概念方面是一个巨大挑战。结果还显示,训练数据的复杂性是泛化的驱动因素,扩展的课程提高了跨任务和泛化测试的整体表现。此外,研究表明,从头开始训练与迁移学习对模型的组合泛化有显著影响。
这些结果确定了当前方法在未来可以改进的几个方面,并强调了多模态语言模型中的一般挑战。对组合泛化的深入研究表明,模型的预训练允许模型获得有助于解决新任务的归纳偏差。相反,从头开始训练的模型在当前的合成任务上的总体表现较低,但显示出较低的相对泛化差距。在结论和展望中,我们讨论了这些结果的意义以及未来的研究方向。