UTC: 用于视觉对话的任务间对比学习的统一Transformer - 专知VIP

会员服务 ·

5

Transformer · CVPR 2022 · 对比学习 · 视觉对话 ·

2022 年 5 月 4 日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉对话旨在回答基于对话历史和图像内容的多轮互动问题。现有方法要么单独考虑答案排序和生成，要么仅通过两个单独的模型微弱地捕捉两个任务之间的关系。在单一模型中共同学习排序和生成答案的通用框架的研究很少。在本文中，我们提出了一个基于对比学习的框架UTC，以统一和促进识别任务和生成任务在视觉对话中使用单一的模型。具体来说，考虑到之前学习范式的内在局限性，我们设计了两种任务间对比损失，即情境对比损失和答案对比损失，使区分性任务和生成性任务相辅相成。这两种互补的对比损失利用对话语境和目标答案作为锚点，从不同的角度提供表征学习信号。我们在VisDial v1.0数据集上评估我们提出的UTC，在那里，我们的方法在鉴别和生成任务上优于最先进的技术，并在Recall@1上超过2个绝对点。

https://www.zhuanzhi.ai/paper/527537bf22a0260715026e0ea474fb5f

成为VIP会员查看完整内容

14

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知会员服务

19+阅读 · 2022年4月7日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

【ICCV2021】用于视频目标分割的联合归纳式和直推式学习

专知会员服务

10+阅读 · 2021年8月12日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

PaperWeekly

0+阅读 · 2022年6月5日

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知

6+阅读 · 2022年5月4日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知

2+阅读 · 2022年4月7日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知

0+阅读 · 2022年2月26日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知

8+阅读 · 2022年1月11日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

中科大、MSRA提出视觉Transformer BERT预训练新方式，优于MAE、BEiT

中科大、MSRA提出视觉Transformer BERT预训练新方式，优于MAE、BEiT

PaperWeekly

1+阅读 · 2021年12月5日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

不依赖基准模型数据的钢筋混凝土梁桥多损伤阶段状态评价

国家自然科学基金

0+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

语言理解中信息结构和情绪调控注意的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

农作物秸秆纳米尺度微表面构建及界面胶合增强机制

国家自然科学基金

0+阅读 · 2012年12月31日

钢筋混凝土框架-摇摆墙新型结构体系研究

国家自然科学基金

0+阅读 · 2011年12月31日

青藏高原壳幔S波速度结构及各向异性研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于sEMG和FES的下肢康复机器人生物反馈控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

耳蜗信号处理新特征与机理

国家自然科学基金

1+阅读 · 2008年12月31日

Position Paper: Online Modeling for Offline Planning

Arxiv

0+阅读 · 2022年6月20日

Learning Multiscale Transformer Models for Sequence Generation

Arxiv

0+阅读 · 2022年6月19日

Grounded Language-Image Pre-training

Arxiv

0+阅读 · 2022年6月17日

Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos

Arxiv

0+阅读 · 2022年6月17日

Patch-level Representation Learning for Self-supervised Vision Transformers

Arxiv

0+阅读 · 2022年6月17日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

Pix2seq: A Language Modeling Framework for Object Detection

Arxiv

10+阅读 · 2021年9月22日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

相关主题

相关VIP内容

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知会员服务

19+阅读 · 2022年4月7日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

【NeurIPS 2021 】MST: 用于Transformer视觉表征的Masked自监督解读

专知会员服务

42+阅读 · 2021年12月11日

【ICCV2021】用于视频目标分割的联合归纳式和直推式学习

专知会员服务

10+阅读 · 2021年8月12日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

PaperWeekly

0+阅读 · 2022年6月5日

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知

6+阅读 · 2022年5月4日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知

2+阅读 · 2022年4月7日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知

0+阅读 · 2022年2月26日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知

8+阅读 · 2022年1月11日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

中科大、MSRA提出视觉Transformer BERT预训练新方式，优于MAE、BEiT

中科大、MSRA提出视觉Transformer BERT预训练新方式，优于MAE、BEiT

PaperWeekly

1+阅读 · 2021年12月5日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

相关基金

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

不依赖基准模型数据的钢筋混凝土梁桥多损伤阶段状态评价

国家自然科学基金

0+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

语言理解中信息结构和情绪调控注意的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

农作物秸秆纳米尺度微表面构建及界面胶合增强机制

国家自然科学基金

0+阅读 · 2012年12月31日

钢筋混凝土框架-摇摆墙新型结构体系研究

国家自然科学基金

0+阅读 · 2011年12月31日

青藏高原壳幔S波速度结构及各向异性研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于sEMG和FES的下肢康复机器人生物反馈控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

耳蜗信号处理新特征与机理

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Position Paper: Online Modeling for Offline Planning

Arxiv

0+阅读 · 2022年6月20日

Learning Multiscale Transformer Models for Sequence Generation

Arxiv

0+阅读 · 2022年6月19日

Grounded Language-Image Pre-training

Arxiv

0+阅读 · 2022年6月17日

Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos

Arxiv

0+阅读 · 2022年6月17日

Patch-level Representation Learning for Self-supervised Vision Transformers

Arxiv

0+阅读 · 2022年6月17日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

Pix2seq: A Language Modeling Framework for Object Detection

Arxiv

10+阅读 · 2021年9月22日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Exploring Visual Relationship for Image Captioning

Exploring Visual Relationship for Image Captioning

Arxiv

15+阅读 · 2018年9月19日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

微信扫码咨询专知VIP会员