AAAI 2022 | 基于预训练-微调框架的图像差异描述任务 - 专知

会员服务 ·

0

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

2022 年 2 月 26 日 专知

论文链接：

https://www.zhuanzhi.ai/paper/ccffad6c8b192de0cd9569ea05d05019

图像差异描述生成（Image Difference Captioning，简称IDC） 的目标是对比两张相似图片、捕捉它们之间的视觉差异，然后用自然语言将这些差异描述出来，如图1所示。相比于经典的图像描述生成任务（Image Captioning，为一张图片生成内容描述），它涉及两张相似图片的内容理解与对比，更富有挑战性。这个任务在现实生活中有广泛的应用，比如协助鸟类学家区分并记录相似的鸟类品种，自动检测和描述监控视频中的场景变化等等。

图1 图像差异描述任务的两个例子

IDC任务主要有两方面的挑战：

· 一方面，相似图片之间的差异是非常细粒度的，捕捉并描述出这种细粒度差异，需要建立（图片1，图片2，文本）三者之间更强的联系；

· 另一方面，该任务所需的三元组数据，人工标注的成本非常高，导致已有数据集的规模都较小，且不同数据集之间domain差异较大。

受到近期视觉-语言预训练（VLP）工作的启发，我们为IDC任务提出了一种预训练-微调的新范式。

对于IDC的第一个挑战，我们结合对比学习设计了三个自监督任务，在细粒度层面对视觉和语言的特征表示进行了对齐。对于第二个挑战，我们额外使用了来自其他任务的同域数据，来缓解标注数据较少的问题。我们的框架能灵活地处理这些形式不一的额外数据。实验表明，我们的模型在CLEVR-Change和Birds-to-words两个数据集上都取得了最佳效果。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“IDCL” 就可以获取《AAAI 2022 | 基于预训练-微调框架的图像差异描述任务》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

0

相关内容

AAAI 2022

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

专知会员服务

21+阅读 · 2022年2月17日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

【KDD2021】图神经网络的自适应迁移学习

专知会员服务

66+阅读 · 2021年7月25日

【KDD2021】大规模异质图上的预训练框架

专知会员服务

46+阅读 · 2021年6月20日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

专知

0+阅读 · 2022年2月17日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知

0+阅读 · 2022年1月24日

AAAI 2022：三角分解一致性约束的端到端语音翻译

AAAI 2022：三角分解一致性约束的端到端语音翻译

专知

0+阅读 · 2022年1月17日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知

0+阅读 · 2022年1月13日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知

8+阅读 · 2022年1月11日

【EACL2021教程】无监督神经机器翻译，125页ppt

【EACL2021教程】无监督神经机器翻译，125页ppt

专知

0+阅读 · 2021年11月13日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向海量数据语义标注众包的任务管理方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于图像的植物识别和检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

语料标注标准的自动迁移研究

国家自然科学基金

0+阅读 · 2012年12月31日

可控任务加工时间条件下的多机床生产调度问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于网络知识和人工知识的图像语义建模方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模计算网络并行任务调度模型及其参数方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向任务的网络公用品博弈群体协调和合作机制研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于社会性标注及本体的深层网语义搜索方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

Automated Audio Captioning using Audio Event Clues

Arxiv

0+阅读 · 2022年4月18日

BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations

Arxiv

0+阅读 · 2022年4月15日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning

Arxiv

15+阅读 · 2021年5月19日

Multi-view Graph Contrastive Representation Learning for Drug-Drug Interaction Prediction

Arxiv

26+阅读 · 2020年12月29日

Few-Shot Knowledge Graph Completion

Arxiv

15+阅读 · 2019年11月26日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

Zero-Shot Transfer Learning for Event Extraction

Arxiv

10+阅读 · 2017年7月4日

VIP会员

相关主题

图像差异描述生成

相关VIP内容

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

专知会员服务

21+阅读 · 2022年2月17日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

【KDD2021】图神经网络的自适应迁移学习

专知会员服务

66+阅读 · 2021年7月25日

【KDD2021】大规模异质图上的预训练框架

专知会员服务

46+阅读 · 2021年6月20日

【ICML2021】协同对抗鲁棒的迁移学习

专知会员服务

25+阅读 · 2021年6月17日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

【AAAI2022】基于对比学习和对抗微调的无监督专家链接框架

专知

0+阅读 · 2022年2月17日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知

0+阅读 · 2022年1月24日

AAAI 2022：三角分解一致性约束的端到端语音翻译

AAAI 2022：三角分解一致性约束的端到端语音翻译

专知

0+阅读 · 2022年1月17日

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知

0+阅读 · 2022年1月13日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知

8+阅读 · 2022年1月11日

【EACL2021教程】无监督神经机器翻译，125页ppt

【EACL2021教程】无监督神经机器翻译，125页ppt

专知

0+阅读 · 2021年11月13日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知

3+阅读 · 2021年4月9日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

相关基金

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

可比语料库质量量化与提升方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向海量数据语义标注众包的任务管理方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于图像的植物识别和检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

语料标注标准的自动迁移研究

国家自然科学基金

0+阅读 · 2012年12月31日

可控任务加工时间条件下的多机床生产调度问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于网络知识和人工知识的图像语义建模方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

大规模计算网络并行任务调度模型及其参数方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向任务的网络公用品博弈群体协调和合作机制研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于社会性标注及本体的深层网语义搜索方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Automated Audio Captioning using Audio Event Clues

Arxiv

0+阅读 · 2022年4月18日

BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations

Arxiv

0+阅读 · 2022年4月15日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning

Arxiv

15+阅读 · 2021年5月19日

Multi-view Graph Contrastive Representation Learning for Drug-Drug Interaction Prediction

Arxiv

26+阅读 · 2020年12月29日

Few-Shot Knowledge Graph Completion

Arxiv

15+阅读 · 2019年11月26日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Cross-Modal Self-Attention Network for Referring Image Segmentation

Cross-Modal Self-Attention Network for Referring Image Segmentation

Arxiv

18+阅读 · 2019年4月9日

Exploring Models and Data for Remote Sensing Image Caption Generation

Arxiv

14+阅读 · 2017年12月21日

Zero-Shot Transfer Learning for Event Extraction

Arxiv

10+阅读 · 2017年7月4日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

滴滴司机调度系统实践

微信扫码咨询专知VIP会员