【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models - 专知VIP

会员服务 ·

23

视觉语言智能 · 表示学习 · 大模型 · 综述论文 ·

2022 年 3 月 8 日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文从时间的角度对视觉语言智能进行了全面的研究。这项研究的灵感来自于计算机视觉和自然语言处理的显著进展，以及从单一模态处理到多模态理解的最新趋势。我们将这一领域的发展总结为三个时期，即任务特定方法，视觉语言预训练(VLP)方法，以及由大规模弱标记数据训练的大模型。我们首先以一些常见的VL任务为例，介绍了特定于任务的开发方法。然后我们重点介绍了VLP方法，并全面回顾了模型结构和训练方法的关键组成部分。之后，我们展示了最近的工作是如何利用大规模的原始图像-文本数据来学习语言对齐的视觉表示，这种视觉表示在零或少数样本学习任务中得到了更好的泛化。最后，我们讨论了在模态协同、统一表示和知识整合方面的一些潜在的未来趋势。我们相信这篇综述将有助于人工智能和ML的研究人员和实践者，特别是那些对计算机视觉和自然语言处理感兴趣的人。

成为VIP会员查看完整内容

44

相关内容

视觉语言智能

视觉语言智能

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

专知会员服务

52+阅读 · 2022年3月10日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【牛津大学】深度学习时间序列预测，12页pdf, Deep Learning Time Series Forecasting

【牛津大学】深度学习时间序列预测，12页pdf, Deep Learning Time Series Forecasting

专知会员服务

174+阅读 · 2020年5月1日

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

专知会员服务

142+阅读 · 2020年4月30日

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

专知会员服务

94+阅读 · 2020年4月13日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

专知会员服务

52+阅读 · 2020年2月8日

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

专知会员服务

56+阅读 · 2019年11月28日

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

大数据文摘

3+阅读 · 2022年3月31日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

CVer

2+阅读 · 2022年3月28日

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

机器之心

4+阅读 · 2022年3月28日

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

专知

0+阅读 · 2022年3月10日

中科院自动化所：最新视觉-语言预训练综述

中科院自动化所：最新视觉-语言预训练综述

PaperWeekly

3+阅读 · 2022年3月1日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

一个既能做CV任务，也能做NLP任务的Transformer模型！谷歌&UCLA提出统一的基础模型

一个既能做CV任务，也能做NLP任务的Transformer模型！谷歌&UCLA提出统一的基础模型

极市平台

0+阅读 · 2022年1月6日

【自监督学习】OpenAI科学家一文详解自监督学习

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

生物可信性频域视觉注意模型及其图像多语义快速获取方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

复杂场景视觉注意对象分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多特征视觉和多源信息融合的焊道识别智能方法及鲁棒性研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向视觉大数据搜索的词典学习与特征编码压缩研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模数据的语义集成

国家自然科学基金

1+阅读 · 2011年12月31日

SAR图像二次成像

国家自然科学基金

6+阅读 · 2008年12月31日

Vision-and-Language Pretrained Models: A Survey

Vision-and-Language Pretrained Models: A Survey

Arxiv

3+阅读 · 2022年4月15日

Large-scale Bilingual Language-Image Contrastive Learning

Arxiv

0+阅读 · 2022年4月15日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

24+阅读 · 2021年8月12日

Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks

Arxiv

18+阅读 · 2021年6月17日

Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

Arxiv

78+阅读 · 2019年11月10日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

A Survey on Deep Learning for Named Entity Recognition

A Survey on Deep Learning for Named Entity Recognition

Arxiv

73+阅读 · 2018年12月22日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

VIP会员

相关主题

视觉语言智能

相关VIP内容

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

37+阅读 · 2022年3月25日

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

专知会员服务

52+阅读 · 2022年3月10日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

最新《自然语言处理迁移学习》综述论文，A Survey on Transfer Learning in Natural Language Processing

专知会员服务

140+阅读 · 2020年7月10日

【牛津大学】深度学习时间序列预测，12页pdf, Deep Learning Time Series Forecasting

【牛津大学】深度学习时间序列预测，12页pdf, Deep Learning Time Series Forecasting

专知会员服务

174+阅读 · 2020年5月1日

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

【牛津大学】深度学习时间序列预测，Time Series Forecasting With Deep Learning: A Survey

专知会员服务

142+阅读 · 2020年4月30日

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

【论文翻译】2020最新预训练语言模型综述：Pre-trained Models for Natural Language Processing: A Survey

专知会员服务

94+阅读 · 2020年4月13日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

专知会员服务

52+阅读 · 2020年2月8日

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

【CVPR 2019 | tutorial】计算机视觉的深度强化学习：Deep Reinforcement Learning for Computer Vision

专知会员服务

56+阅读 · 2019年11月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

大数据文摘

3+阅读 · 2022年3月31日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

CVer

2+阅读 · 2022年3月28日

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

机器之心

4+阅读 · 2022年3月28日

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

视觉语言如何协同学习？港科大等最新《视觉语言智能》综述论文，全面阐述VL的任务、表示学习和大模型

专知

0+阅读 · 2022年3月10日

中科院自动化所：最新视觉-语言预训练综述

中科院自动化所：最新视觉-语言预训练综述

PaperWeekly

3+阅读 · 2022年3月1日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

一个既能做CV任务，也能做NLP任务的Transformer模型！谷歌&UCLA提出统一的基础模型

一个既能做CV任务，也能做NLP任务的Transformer模型！谷歌&UCLA提出统一的基础模型

极市平台

0+阅读 · 2022年1月6日

【自监督学习】OpenAI科学家一文详解自监督学习

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

OpenAI科学家一文详解自监督学习

OpenAI科学家一文详解自监督学习

新智元

18+阅读 · 2019年11月20日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能视觉监控的大规模慢特征学习研究

国家自然科学基金

3+阅读 · 2014年12月31日

生物可信性频域视觉注意模型及其图像多语义快速获取方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

复杂场景视觉注意对象分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于多特征视觉和多源信息融合的焊道识别智能方法及鲁棒性研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向视觉大数据搜索的词典学习与特征编码压缩研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模数据的语义集成

国家自然科学基金

1+阅读 · 2011年12月31日

SAR图像二次成像

国家自然科学基金

6+阅读 · 2008年12月31日

相关论文

Vision-and-Language Pretrained Models: A Survey

Vision-and-Language Pretrained Models: A Survey

Arxiv

3+阅读 · 2022年4月15日

Large-scale Bilingual Language-Image Contrastive Learning

Arxiv

0+阅读 · 2022年4月15日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

24+阅读 · 2021年8月12日

Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks

Arxiv

18+阅读 · 2021年6月17日

Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

Arxiv

78+阅读 · 2019年11月10日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

A Survey on Deep Learning for Named Entity Recognition

A Survey on Deep Learning for Named Entity Recognition

Arxiv

73+阅读 · 2018年12月22日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

微信扫码咨询专知VIP会员