视觉-语言模型的迅速扩展需要大量资源,包括计算和数据。越来越多的人对高效训练这些模型并将它们用于各种下游任务产生了兴趣。本论文提出了几项旨在提高视觉-语言模型训练中的学习和数据效率的贡献,并阐明了如何在下游任务中利用它们。论文围绕三个关键领域展开:

  1. 学习高效的视觉-语言基础模型:本节讨论了VisualGPT,这是一个数据高效的图像描述模型,探讨了如何有效地将预训练的语言模型整合到视觉-语言模型中。它还涵盖了MiniGPT-4,旨在将先进的大型语言模型技术应用于视觉-语言模型,从而增强它们的能力。此外,还介绍了MiniGPT-v2,它使大型语言模型能够作为一个通用界面,统一多种视觉-语言任务。

  2. 学习高效的视觉-语言模型,用于开放和长尾感知任务:这部分包括ZeroSeg,它研究了如何高效地将从CLIP视觉编码器中学到的视觉-语言概念转移到开放词汇的语义分割中,而无需像素级监督。它还研究了RelTransformer,通过利用局部、全局和增强的记忆层次的视觉上下文来识别长尾视觉关系。

  3. 在开发更高效的视频-语言理解模型中的数据贡献:本节介绍了一个大规模的视频数据集,重点是复合性地识别动物及其行为。对这些模型进行广泛的评估,与常见基准相比显示出显著的进步。这些发现对于视觉-语言模型中高效学习的持续发展有所贡献。这些洞见和方法论旨在加速实际应用,并为未来在视觉-语言领域的研究奠定基础。

成为VIP会员查看完整内容
34

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】投资管理中的数据科学,372页pdf
专知会员服务
43+阅读 · 2023年11月25日
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
66+阅读 · 2023年11月13日
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
39+阅读 · 2023年11月12日
【MIT博士论文】从未整理数据中的鲁棒学习,220页pdf
专知会员服务
53+阅读 · 2023年11月10日
【MIT博士论文】多模态:模型、算法与应用,196页pdf
专知会员服务
113+阅读 · 2023年8月17日
【2022新书】深度学习归一化技术,117页pdf
专知
24+阅读 · 2022年11月25日
深度多模态表示学习综述论文,22页pdf
专知
30+阅读 · 2020年6月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员