In this paper, we propose a novel conditional generative adversarial nets based image captioning framework as an extension of traditional reinforcement learning (RL) based encoder-decoder architecture. To deal with the inconsistent evaluation problem between objective language metrics and subjective human judgements, we are inspired to design some "discriminator" networks to automatically and progressively determine whether generated caption is human described or machine generated. Two kinds of discriminator architecture (CNN and RNN based structures) are introduced since each has its own advantages. The proposed algorithm is generic so that it can enhance any existing encoder-decoder based image captioning model and we show that conventional RL training method is just a special case of our framework. Empirically, we show consistent improvements over all language evaluation metrics for different stage-of-the-art image captioning models.


翻译:在本文中,我们提出一个新的有条件的对抗性网基图像说明框架,作为传统强化学习(RL)基于编码器-编码器结构的延伸。为了处理客观语言指标与主观人类判断之间不一致的评估问题,我们受启发设计了一些“差异器”网络,以便自动和逐步确定所生成的字幕是人类描述还是机器生成。两种歧视结构(CNN和基于RNN的架构)都是自有优势的。拟议的算法是通用的,可以加强任何现有的以编码器-编码器为基础的图像说明模型,我们显示常规的RL培训方法只是我们框架的一个特例。我们很生动地表明,对于不同阶段的图像说明模型,所有语言评价指标都得到了一致的改进。

9
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
3+阅读 · 2018年3月14日
Arxiv
10+阅读 · 2018年2月17日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
相关资讯
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关论文
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
8+阅读 · 2019年2月15日
Arxiv
10+阅读 · 2018年3月23日
Arxiv
3+阅读 · 2018年3月14日
Arxiv
10+阅读 · 2018年2月17日
Arxiv
5+阅读 · 2018年1月30日
Top
微信扫码咨询专知VIP会员