Recent advances in language and vision push forward the research of captioning a single image to describing visual differences between image pairs. Suppose there are two images, I_1 and I_2, and the task is to generate a description W_{1,2} comparing them, existing methods directly model { I_1, I_2 } -> W_{1,2} mapping without the semantic understanding of individuals. In this paper, we introduce a Learning-to-Compare (L2C) model, which learns to understand the semantic structures of these two images and compare them while learning to describe each one. We demonstrate that L2C benefits from a comparison between explicit semantic representations and single-image captions, and generalizes better on the new testing image pairs. It outperforms the baseline on both automatic evaluation and human evaluation for the Birds-to-Words dataset.


翻译:语言和愿景方面的最新进展推进了将单一图像标题描述成描述图像配对之间视觉差异的研究。 假设有两种图像, I_ 1 和 I_ 2, 任务在于生成一个描述 W ⁇ 1, 2} 比较这些图像, 现有的直接模型 {I_ 1, I_ 2} - > W ⁇ 1, 2} 绘图方法没有个人的语义理解。 在本文中, 我们引入了一种“ 学习到复合” (L2C) 模型, 学会理解这两张图像的语义结构, 并在学习描述每张图像的同时进行比较。 我们证明 L2C 得益于对明确的语义表达和单象标题的比较, 并且对新的测试图像配对的概括性更好。 它超越了鸟类到 Words 数据集的自动评估和人文评估基准 。

0
下载
关闭预览

相关内容

专知会员服务
77+阅读 · 2021年3月16日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
9+阅读 · 2018年4月12日
Arxiv
5+阅读 · 2018年3月16日
Arxiv
4+阅读 · 2018年3月1日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员