【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer - 专知

会员服务 ·

0

【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer

2022 年 5 月 4 日 专知

视觉对话旨在回答基于对话历史和图像内容的多轮互动问题。现有方法要么单独考虑答案排序和生成，要么仅通过两个单独的模型微弱地捕捉两个任务之间的关系。在单一模型中共同学习排序和生成答案的通用框架的研究很少。在本文中，我们提出了一个基于对比学习的框架UTC，以统一和促进识别任务和生成任务在视觉对话中使用单一的模型。具体来说，考虑到之前学习范式的内在局限性，我们设计了两种任务间对比损失，即情境对比损失和答案对比损失，使区分性任务和生成性任务相辅相成。这两种互补的对比损失利用对话语境和目标答案作为锚点，从不同的角度提供表征学习信号。我们在VisDial v1.0数据集上评估我们提出的UTC，在那里，我们的方法在鉴别和生成任务上优于最先进的技术，并在Recall@1上超过2个绝对点。

https://www.zhuanzhi.ai/paper/527537bf22a0260715026e0ea474fb5f

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“UTC” 就可以获取《【CVPR2022】UTC: 用于视觉对话的任务间对比学习的统一Transformer》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资料

登录查看更多

6

相关内容

联合技术公司

联合技术公司

联合技术公司（United Technologies Corporation，UTC）是美国第22大制造商，主要经营项目包括飞机发动机、直升机、空调系统、燃料电池、电梯、滚梯、防火与安全设备、建筑设备和其他工业设备。2020年与雷神公司一起组建雷神科技公司。

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知会员服务

18+阅读 · 2022年2月26日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知

4+阅读 · 2022年4月23日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知

1+阅读 · 2022年4月22日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知

2+阅读 · 2022年4月7日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知

0+阅读 · 2022年2月26日

【AAAI2022】多任务推荐中的跨任务知识提炼

【AAAI2022】多任务推荐中的跨任务知识提炼

专知

0+阅读 · 2022年2月22日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知

8+阅读 · 2022年1月11日

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

专知

0+阅读 · 2022年1月6日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

刚柔耦合2K-V型传动装置的精度设计与实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

平动点深空探测任务轨道设计与控制的中心流形方法

国家自然科学基金

0+阅读 · 2013年12月31日

基于动态图模型与多元结构化在线学习的视觉目标跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

面向CFD并行应用开发框架的高效容错方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向图形流程模型的结构化转换方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

异步电机低开关频率的模型预测优化控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

医学图像分割中面向目标的形状统计与边界特征学习

国家自然科学基金

3+阅读 · 2011年12月31日

网络化采样线性随机系统的状态估计和控制及其在多机器人系统中的应用

国家自然科学基金

0+阅读 · 2010年12月31日

Domain Adaptive 3D Pose Augmentation for In-the-wild Human Mesh Recovery

Arxiv

0+阅读 · 2022年6月21日

The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic Speech Recognition

Arxiv

0+阅读 · 2022年6月20日

Transformers in Medical Image Analysis: A Review

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Arxiv

16+阅读 · 2020年1月2日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Incorporating Dictionaries into Deep Neural Networks for the Chinese Clinical Named Entity Recognition

Arxiv

12+阅读 · 2018年4月13日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

相关主题

联合技术公司

相关VIP内容

【ICML2022】MetAug:通过元特征增强的对比学习

【ICML2022】MetAug:通过元特征增强的对比学习

专知会员服务

25+阅读 · 2022年5月20日

UTC: 用于视觉对话的任务间对比学习的统一Transformer

UTC: 用于视觉对话的任务间对比学习的统一Transformer

专知会员服务

14+阅读 · 2022年5月4日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知会员服务

18+阅读 · 2022年2月26日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知

4+阅读 · 2022年4月23日

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型

专知

1+阅读 · 2022年4月22日

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

【CVPR2022】CAT-Det:用于多模态三维物体检测的对比增强Transformer

专知

2+阅读 · 2022年4月7日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知

0+阅读 · 2022年2月26日

【AAAI2022】多任务推荐中的跨任务知识提炼

【AAAI2022】多任务推荐中的跨任务知识提炼

专知

0+阅读 · 2022年2月22日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知

8+阅读 · 2022年1月11日

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

【AAAI 2022】跨模态目标跟踪: 模态感知表示和统一基准

专知

0+阅读 · 2022年1月6日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

相关基金

刚柔耦合2K-V型传动装置的精度设计与实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

平动点深空探测任务轨道设计与控制的中心流形方法

国家自然科学基金

0+阅读 · 2013年12月31日

基于动态图模型与多元结构化在线学习的视觉目标跟踪

国家自然科学基金

0+阅读 · 2013年12月31日

面向CFD并行应用开发框架的高效容错方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向图形流程模型的结构化转换方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

异步电机低开关频率的模型预测优化控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

医学图像分割中面向目标的形状统计与边界特征学习

国家自然科学基金

3+阅读 · 2011年12月31日

网络化采样线性随机系统的状态估计和控制及其在多机器人系统中的应用

国家自然科学基金

0+阅读 · 2010年12月31日

相关论文

Domain Adaptive 3D Pose Augmentation for In-the-wild Human Mesh Recovery

Arxiv

0+阅读 · 2022年6月21日

The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic Speech Recognition

Arxiv

0+阅读 · 2022年6月20日

Transformers in Medical Image Analysis: A Review

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

Pretrained Transformers for Text Ranking: BERT and Beyond

Arxiv

28+阅读 · 2020年10月13日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements

Arxiv

16+阅读 · 2020年1月2日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Incorporating Dictionaries into Deep Neural Networks for the Chinese Clinical Named Entity Recognition

Arxiv

12+阅读 · 2018年4月13日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

大家都在搜

软件无线电

CMU博士论文

无人机集群

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员