AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

2022 年 2 月 26 日 专知

论文链接:
https://www.zhuanzhi.ai/paper/ccffad6c8b192de0cd9569ea05d05019

图像差异描述生成(Image Difference Captioning,简称IDC) 的目标是对比两张相似图片、捕捉它们之间的视觉差异,然后用自然语言将这些差异描述出来,如图1所示。相比于经典的图像描述生成任务(Image Captioning, 为一张图片生成内容描述),它涉及两张相似图片的内容理解与对比,更富有挑战性。这个任务在现实生活中有广泛的应用,比如协助鸟类学家区分并记录相似的鸟类品种,自动检测和描述监控视频中的场景变化等等。

图1 图像差异描述任务的两个例子

IDC任务主要有两方面的挑战:

· 一方面,相似图片之间的差异是非常细粒度的,捕捉并描述出这种细粒度差异,需要建立(图片1,图片2,文本)三者之间更强的联系;

· 另一方面,该任务所需的三元组数据,人工标注的成本非常高,导致已有数据集的规模都较小,且不同数据集之间domain差异较大。

受到近期视觉-语言预训练(VLP)工作的启发,我们为IDC任务提出了一种预训练-微调的新范式。

对于IDC的第一个挑战,我们结合对比学习设计了三个自监督任务,在细粒度层面对视觉和语言的特征表示进行了对齐。对于第二个挑战,我们额外使用了来自其他任务的同域数据,来缓解标注数据较少的问题。我们的框架能灵活地处理这些形式不一的额外数据。实验表明,我们的模型在CLEVR-Change和Birds-to-words两个数据集上都取得了最佳效果。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“IDCL” 就可以获取AAAI 2022 | 基于预训练-微调框架的图像差异描述任务》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资源
登录查看更多
0

相关内容

【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
【AAAI 2022】用于文本摘要任务的序列级对比学习模型
专知会员服务
24+阅读 · 2022年1月11日
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
45+阅读 · 2021年6月20日
专知会员服务
24+阅读 · 2021年6月17日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知会员服务
35+阅读 · 2020年11月29日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
14+阅读 · 2019年11月26日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
【CVPR2022】高分辨率和多样化的视频-文本预训练模型
专知会员服务
9+阅读 · 2022年3月6日
【AAAI 2022】用于文本摘要任务的序列级对比学习模型
专知会员服务
24+阅读 · 2022年1月11日
专知会员服务
64+阅读 · 2021年7月25日
专知会员服务
45+阅读 · 2021年6月20日
专知会员服务
24+阅读 · 2021年6月17日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
专知会员服务
35+阅读 · 2020年11月29日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员