【AAAI2023】用单塔Transformer统一视觉语言表示空间 - 专知VIP

会员服务 ·

11

AAAI 2023 · Transformer · 视觉语言表示学习 ·

2022 年 11 月 27 日

【AAAI2023】用单塔Transformer统一视觉语言表示空间

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

对比学习是远程学习的一种形式，旨在从两种相关表示中学习不变特征。在本文中，我们探索了一个大胆的假设，即图像及其标题可以被简单地视为潜在相互信息的两种不同视图，并训练一个模型学习统一的视觉-语言表示空间，该空间以模态不可知的方式对两种模态进行编码。我们首先确定了学习视觉语言预训练(VLP)的通用单塔模型的困难，并提出OneR作为实现我们目标的一个简单而有效的框架。发现了一些有趣的特性，将OneR与之前学习特定模态表示空间的工作区分开，如零样本物体定位、文本引导的视觉推理和多模态检索，并提出了分析，以提供对这种新的多模态表示学习形式的见解。本文全面的评估证明了一个统一的模式不可知VLP框架的潜力。

https://www.zhuanzhi.ai/paper/4e17357dee62d9195ef21f2d22320c40

成为VIP会员查看完整内容

16

相关内容

AAAI 2023

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知会员服务

34+阅读 · 2022年8月1日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知会员服务

35+阅读 · 2022年1月26日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ICML2021】统一鲁棒半监督变分自编码器

专知会员服务

27+阅读 · 2021年7月11日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

EMNLP 2022 | 统一指代性表达的生成和理解

EMNLP 2022 | 统一指代性表达的生成和理解

PaperWeekly

1+阅读 · 2022年11月8日

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知

1+阅读 · 2022年8月1日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知

1+阅读 · 2022年4月22日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

CVer

2+阅读 · 2022年3月28日

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

机器之心

4+阅读 · 2022年3月28日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向理解的室内点云场景空间结构恢复与表达

国家自然科学基金

1+阅读 · 2014年12月31日

基于跨媒体语义关联模型的图像检索技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉感知启发的对象发现技术

国家自然科学基金

0+阅读 · 2011年12月31日

基于黎曼空间模型的多模态Web图像流形学习及检索研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于潜在语义对偶空间的跨语言信息检索理论和算法研究

国家自然科学基金

1+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

一种统一的具有可分级的体育视频内容理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于协同学的并行多层次反馈图像理解研究

国家自然科学基金

1+阅读 · 2008年12月31日

Interaction Modeling with Multiplex Attention

Arxiv

0+阅读 · 2023年1月25日

GAN-Supervised Dense Visual Alignment

Arxiv

10+阅读 · 2021年12月9日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Domain Generalization in Vision: A Survey

Arxiv

16+阅读 · 2021年7月18日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Disentangled Information Bottleneck

Disentangled Information Bottleneck

Arxiv

12+阅读 · 2020年12月22日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Compositional GAN: Learning Conditional Image Composition

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

Differentiable Dynamic Programming for Structured Prediction and Attention

Arxiv

56+阅读 · 2018年2月20日

VIP会员

相关主题

视觉语言表示学习

相关VIP内容

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知会员服务

34+阅读 · 2022年8月1日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知会员服务

21+阅读 · 2022年4月21日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知会员服务

35+阅读 · 2022年1月26日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ICML2021】统一鲁棒半监督变分自编码器

专知会员服务

27+阅读 · 2021年7月11日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

EMNLP 2022 | 统一指代性表达的生成和理解

EMNLP 2022 | 统一指代性表达的生成和理解

PaperWeekly

1+阅读 · 2022年11月8日

【KDD2022】自监督超图Transformer推荐系统

【KDD2022】自监督超图Transformer推荐系统

专知

1+阅读 · 2022年8月1日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知

1+阅读 · 2022年4月22日

首个视觉-语言预训练综述来了！

首个视觉-语言预训练综述来了！

夕小瑶的卖萌屋

8+阅读 · 2022年3月29日

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！

CVer

2+阅读 · 2022年3月28日

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述

机器之心

4+阅读 · 2022年3月28日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

中科院自动化所最新《视觉-语言预训练》综述

中科院自动化所最新《视觉-语言预训练》综述

专知

5+阅读 · 2022年2月23日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

相关基金

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向理解的室内点云场景空间结构恢复与表达

国家自然科学基金

1+阅读 · 2014年12月31日

基于跨媒体语义关联模型的图像检索技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉感知启发的对象发现技术

国家自然科学基金

0+阅读 · 2011年12月31日

基于黎曼空间模型的多模态Web图像流形学习及检索研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于潜在语义对偶空间的跨语言信息检索理论和算法研究

国家自然科学基金

1+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

一种统一的具有可分级的体育视频内容理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于协同学的并行多层次反馈图像理解研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Interaction Modeling with Multiplex Attention

Arxiv

0+阅读 · 2023年1月25日

GAN-Supervised Dense Visual Alignment

Arxiv

10+阅读 · 2021年12月9日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Domain Generalization in Vision: A Survey

Arxiv

16+阅读 · 2021年7月18日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Disentangled Information Bottleneck

Disentangled Information Bottleneck

Arxiv

12+阅读 · 2020年12月22日

Heterogeneous Graph Transformer

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Compositional GAN: Learning Conditional Image Composition

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

Differentiable Dynamic Programming for Structured Prediction and Attention

Arxiv

56+阅读 · 2018年2月20日

微信扫码咨询专知VIP会员