本文从时间的角度对视觉语言智能进行了全面的研究。这项研究的灵感来自于计算机视觉和自然语言处理的显著进展,以及从单一模态处理到多模态理解的最新趋势。我们将这一领域的发展总结为三个时期,即任务特定方法,视觉语言预训练(VLP)方法,以及由大规模弱标记数据训练的大模型。我们首先以一些常见的VL任务为例,介绍了特定于任务的开发方法。然后我们重点介绍了VLP方法,并全面回顾了模型结构和训练方法的关键组成部分。之后,我们展示了最近的工作是如何利用大规模的原始图像-文本数据来学习语言对齐的视觉表示,这种视觉表示在零或少数样本学习任务中得到了更好的泛化。最后,我们讨论了在模态协同、统一表示和知识整合方面的一些潜在的未来趋势。我们相信这篇综述将有助于人工智能和ML的研究人员和实践者,特别是那些对计算机视觉和自然语言处理感兴趣的人。

成为VIP会员查看完整内容
39

相关内容

中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
65+阅读 · 2022年2月23日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
6+阅读 · 2022年3月29日
中科院自动化所:最新视觉-语言预训练综述
PaperWeekly
3+阅读 · 2022年3月1日
【自监督学习】OpenAI科学家一文详解自监督学习
产业智能官
25+阅读 · 2020年3月18日
OpenAI科学家一文详解自监督学习
新智元
18+阅读 · 2019年11月20日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
Vision-and-Language Pretrained Models: A Survey
Arxiv
3+阅读 · 2022年4月15日
Arxiv
28+阅读 · 2021年10月1日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
72+阅读 · 2018年12月22日
VIP会员
相关VIP内容
中科院自动化所徐波团队最新《视觉-语言预训练》综述
专知会员服务
65+阅读 · 2022年2月23日
相关基金
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员