人类通过整合多种感官信息(包括视觉、语言和听觉线索)来理解和与周围环境互动。视觉-语言表示学习领域致力于使机器学习视觉和文本数据之间的多模态关联与互动。本论文解决了三个关键问题:预训练数据的可扩展性、预训练目标的效率以及细粒度的视觉-语言对齐。 在数据可扩展性方面,我们关注利用未配对的图像和文本进行可扩展的视觉-语言表示学习。为了增强模态之间的隐式对齐并增加数据的多样性,我们引入了跨模态CutMix技术,该技术通过将视觉补丁与句子混合,创建多模态句子,即句子的多模态视图。通过将多样化的多模态句子融入对比学习,文本与多模态样本之间的实例级对齐得到了有效利用。我们的方法绕过了配对数据集的限制,促进了基于更广泛和更多样的未配对数据的可扩展多模态表示学习。 在学习效率方面,我们研究了加速视觉-语言预训练的方法。我们实证发现,训练效率的一个重要障碍在于掩码语言建模中的预测率(重建的令牌百分比)和破坏率(破坏的令牌百分比)交织在一起。具体来说,适当的破坏率是以大量输出令牌被排除在预测损失之外为代价的。为了克服这一限制,我们提出了自由语言建模(FLM),这是一种新的预训练目标,能够将预测率与破坏率在掩码语言建模中解耦。我们的方法通过允许为每个令牌自定义破坏范围,从而实现了更快的收敛,同时在下游视觉-语言任务中保持了竞争力的表现。 关于跨模态对齐粒度,我们深入研究了未修剪视频与自然语言之间的细粒度对齐。我们提出了一个针对未修剪视频的基础视觉-语言学习(GVL)框架,重点在于检测有信息量的事件并将多句描述与相应的事件段对齐。我们引入了并行解码范式(PDVC)用于密集视频字幕生成,以有效地对视频进行分段,从而提高生成的密集字幕的连贯性和可读性。此外,我们提出了两个双重预文本任务以促进细粒度的段级对齐:文本到事件对比和事件到文本生成。该框架具有广泛的适用性,可应用于视觉基础的语言理解与生成任务。 我们进行了大量实验以验证我们提出的方法。这些工作不仅推动了多模态学习的前沿,也为机器智能系统中视觉与语言的更高效、更有效的整合铺平了道路。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【博士论文】深度生成表示学习
专知会员服务
32+阅读 · 1月13日
【博士论文】学习自适应感知与主动学习
专知会员服务
33+阅读 · 2024年11月12日
【NTU博士论文】视觉神经模型的资源高效学习,155页pdf
专知会员服务
24+阅读 · 2024年5月18日
【博士论文】复杂场景下高精度有向目标检测的研究
专知会员服务
50+阅读 · 2023年12月1日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
46+阅读 · 2022年10月3日
【MIT博士论文】使用神经符号学习的鲁棒可靠智能系统
专知会员服务
40+阅读 · 2022年7月5日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最新《图嵌入组合优化》综述论文,40页pdf
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
427+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【博士论文】深度生成表示学习
专知会员服务
32+阅读 · 1月13日
【博士论文】学习自适应感知与主动学习
专知会员服务
33+阅读 · 2024年11月12日
【NTU博士论文】视觉神经模型的资源高效学习,155页pdf
专知会员服务
24+阅读 · 2024年5月18日
【博士论文】复杂场景下高精度有向目标检测的研究
专知会员服务
50+阅读 · 2023年12月1日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
46+阅读 · 2022年10月3日
【MIT博士论文】使用神经符号学习的鲁棒可靠智能系统
专知会员服务
40+阅读 · 2022年7月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员