【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看 - 专知

会员服务 ·

0

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

2022 年 1 月 26 日 专知

近年来，由于基于Transformer的视觉-语言模型的发展，联合文本-图像嵌入得到了显著的改善。尽管有这些进步，我们仍然需要更好地理解这些模型产生的表示。在本文中，我们在视觉、语言和多模态水平上比较了预训练和微调的表征。为此，我们使用了一组探测任务来评估最先进的视觉语言模型的性能，并引入了专门用于多模态探测的新数据集。这些数据集经过精心设计，以处理一系列多模态功能，同时最大限度地减少模型依赖偏差的可能性。虽然结果证实了视觉语言模型在多模态水平上理解颜色的能力，但模型似乎更倾向于依赖文本数据中物体的位置和大小的偏差。在语义对抗的例子中，我们发现这些模型能够精确地指出细粒度的多模态差异。最后，我们还注意到，在多模态任务上对视觉-语言模型进行微调并不一定能提高其多模态能力。我们提供所有的数据集和代码来复制实验。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“VLTL” 就可以获取《【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

0

相关内容

多模态

多模态

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知

3+阅读 · 2022年3月17日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知

0+阅读 · 2022年2月6日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知

1+阅读 · 2021年4月28日

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知

1+阅读 · 2021年4月14日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知

0+阅读 · 2021年3月15日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

基于认知学习的智能机器人控制系统关键问题的研究

国家自然科学基金

7+阅读 · 2014年12月31日

情绪性语境调控下词汇学习的认知神经机制

国家自然科学基金

1+阅读 · 2013年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

红外融合视觉研究及其体热像应用初探

国家自然科学基金

0+阅读 · 2012年12月31日

视觉注意的计算模型及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

从做中学—#8212;内隐学习中无意识知识的产生及其神经机制

国家自然科学基金

1+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多层次语言粒度的文本情感分类研究

国家自然科学基金

1+阅读 · 2008年12月31日

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

Arxiv

1+阅读 · 2022年4月19日

Multi-View Spatial-Temporal Network for Continuous Sign Language Recognition

Arxiv

0+阅读 · 2022年4月19日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

相关主题

视觉语言模型

相关VIP内容

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

中科院自动化所徐波团队最新《视觉-语言预训练》综述

中科院自动化所徐波团队最新《视觉-语言预训练》综述

专知会员服务

67+阅读 · 2022年2月23日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

72+阅读 · 2021年7月29日

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知会员服务

44+阅读 · 2021年3月15日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知

4+阅读 · 2022年4月13日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知

3+阅读 · 2022年3月17日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知

0+阅读 · 2022年2月6日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【CVPR2021】通道注意力的高效移动网络设计

【CVPR2021】通道注意力的高效移动网络设计

专知

1+阅读 · 2021年4月28日

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知

1+阅读 · 2021年4月14日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

【CVPR2021】基于Transformers 从序列到序列的角度重新思考语义分割

专知

0+阅读 · 2021年3月15日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

相关基金

基于认知学习的智能机器人控制系统关键问题的研究

国家自然科学基金

7+阅读 · 2014年12月31日

情绪性语境调控下词汇学习的认知神经机制

国家自然科学基金

1+阅读 · 2013年12月31日

基于隐含关系的视觉显著学习方法

国家自然科学基金

0+阅读 · 2012年12月31日

红外融合视觉研究及其体热像应用初探

国家自然科学基金

0+阅读 · 2012年12月31日

视觉注意的计算模型及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

从做中学—#8212;内隐学习中无意识知识的产生及其神经机制

国家自然科学基金

1+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多层次语言粒度的文本情感分类研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding

Arxiv

1+阅读 · 2022年4月19日

Multi-View Spatial-Temporal Network for Continuous Sign Language Recognition

Arxiv

0+阅读 · 2022年4月19日

Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月17日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

KBGN: Knowledge-Bridge Graph Network for Adaptive Vision-Text Reasoning in Visual Dialogue

Arxiv

12+阅读 · 2020年8月11日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

大家都在搜

大型语言模型

久别重逢话双塔

国防科技创新

软件无线电

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员