【CMU博士论文】多语言视觉-语言模型研究，190页pdf

**近年来，随着用户生成的多模态数据的爆炸式增长，学习多模态表示已经使许多新颖的视觉语言应用成为可能。**虽然全球大约有6500种语言，但大多数视觉语言模型及其数据集都是基于英语的。不幸的是，这种限制阻碍了当前的模型造福于更广泛的非英语社区。因此，开发基于英语的视觉语言模型泛化到非英语语言的方法是迫切而有益的。我的论文工作在这一挑战的多个方面取得了进展，通过探索学习多语言多模态表示的新兴趋势，促进了对各种语言的图像、视频和文本等异构内容的建模和推理。在本文的第一部分中，我指出了现有英语图像表示学习的局限性，为广义多语言多模态表示学习铺平了道路。虽然之前的工作主要是将整个图像与相应的英文标题相关联，但我认为这种对应应该更加精细，甚至是多语言的。结果表明，基于注意力和面向对象的多语言多模态表示学习方法可以有效地改进跨模态搜索和多模态机器翻译等终端任务。**本文的第二部分研究了视觉-语言模型的跨语言泛化。本文解决了大规模任务无关的多语言多模态预训练中的可扩展性挑战，以及在对最终任务进行微调时缺乏注释的挑战。**为了用有噪声的百万规模的未经整理的教学视频及其各种语言的转录进行学习，我分析了多模态自监督学习中理想的支持集大小，并提出了一个重建目标来缓解这种瓶颈。此外，我探索了多语言多模态预训练并构建了Multi-HowTo100M数据集，该数据集由1.2亿个视频片段及其在9种语言中的转录组成，以改善视觉-语言模型的零样本跨语言迁移。最后，在特定任务的微调中，利用自动视觉语义来学习稀疏的英语视觉注释。当非英语标注稀缺或不可用时，本文研究了视觉旋转监督和无监督多模态机器翻译，将英语视觉数据翻译为非英语视觉数据，以进行多语言多模态微调。本文的工作为增强视觉-语言模型的跨语言泛化能力带来了显著的突破。我相信所提出的方法和释放的资源将是迈向多语言视觉-语言模型的关键一步。

成为VIP会员查看完整内容

相关内容

卡内基梅隆大学 (Carnegie Mellon University)

关注 0

卡耐基梅隆大学（Carnegie Mellon University）坐落在宾夕法尼亚州的匹兹堡，是一所享誉世界的私立顶级研究型大学，学校面积不大，学科门类不多，但在其所设立的几乎所有专业都居于世界领先水平。卡内基梅隆大学享誉全国的认知心理学、管理和公共关系学、写作和修辞学、应用历史学、哲学和生物科学专业。它的计算机、机器人科学、理学、美术及工业管理都是举世公认的一流专业。

【剑桥博士论文】利用世界表示中的多模态和结构，144页pdf

专知会员服务

53+阅读 · 2023年3月30日

【MIT博士论文】多模态模型学习语言，138页pdf

专知会员服务

58+阅读 · 2022年12月23日

【CMU博士论文】无人工监督的视觉表示与识别，126页pdf

专知会员服务

35+阅读 · 2022年12月14日

【南洋理工博士论文】从知识增强到多任务:面向类人对话系统，109页pdf

专知会员服务

29+阅读 · 2022年12月13日