**近年来,随着用户生成的多模态数据的爆炸式增长,学习多模态表示已经使许多新颖的视觉语言应用成为可能。**虽然全球大约有6500种语言,但大多数视觉语言模型及其数据集都是基于英语的。不幸的是,这种限制阻碍了当前的模型造福于更广泛的非英语社区。因此,开发基于英语的视觉语言模型泛化到非英语语言的方法是迫切而有益的。我的论文工作在这一挑战的多个方面取得了进展,通过探索学习多语言多模态表示的新兴趋势,促进了对各种语言的图像、视频和文本等异构内容的建模和推理。在本文的第一部分中,我指出了现有英语图像表示学习的局限性,为广义多语言多模态表示学习铺平了道路。虽然之前的工作主要是将整个图像与相应的英文标题相关联,但我认为这种对应应该更加精细,甚至是多语言的。结果表明,基于注意力和面向对象的多语言多模态表示学习方法可以有效地改进跨模态搜索和多模态机器翻译等终端任务。**本文的第二部分研究了视觉-语言模型的跨语言泛化。本文解决了大规模任务无关的多语言多模态预训练中的可扩展性挑战,以及在对最终任务进行微调时缺乏注释的挑战。**为了用有噪声的百万规模的未经整理的教学视频及其各种语言的转录进行学习,我分析了多模态自监督学习中理想的支持集大小,并提出了一个重建目标来缓解这种瓶颈。此外,我探索了多语言多模态预训练并构建了Multi-HowTo100M数据集,该数据集由1.2亿个视频片段及其在9种语言中的转录组成,以改善视觉-语言模型的零样本跨语言迁移。最后,在特定任务的微调中,利用自动视觉语义来学习稀疏的英语视觉注释。当非英语标注稀缺或不可用时,本文研究了视觉旋转监督和无监督多模态机器翻译,将英语视觉数据翻译为非英语视觉数据,以进行多语言多模态微调。本文的工作为增强视觉-语言模型的跨语言泛化能力带来了显著的突破。我相信所提出的方法和释放的资源将是迈向多语言视觉-语言模型的关键一步。