We study how to generate captions that are not only accurate in describing an image but also discriminative across different images. The problem is both fundamental and interesting, as most machine-generated captions, despite phenomenal research progresses in the past several years, are expressed in a very monotonic and featureless format. While such captions are normally accurate, they often lack important characteristics in human languages - distinctiveness for each caption and diversity for different images. To address this problem, we propose a novel conditional generative adversarial network for generating diverse captions across images. Instead of estimating the quality of a caption solely on one image, the proposed comparative adversarial learning framework better assesses the quality of captions by comparing a set of captions within the image-caption joint space. By contrasting with human-written captions and image-mismatched captions, the caption generator effectively exploits the inherent characteristics of human languages, and generates more discriminative captions. We show that our proposed network is capable of producing accurate and diverse captions across images.


翻译:我们研究如何生成不仅准确描述图像的字幕,而且对不同图像进行区分。问题既基本又有趣,因为尽管过去几年来研究进展惊人,但大多数机器生成的字幕都是以非常单调和无特色的格式表达的。虽然这些字幕通常很准确,但它们往往缺乏人文语言的重要特征,即每个字幕的独特性和不同图像的多样性。为了解决这一问题,我们建议建立一个创新的有条件的基因对抗网络,用于生成不同图像的字幕。我们提出的比较对抗性学习框架不是仅仅用一个图像来估计字幕的质量,而是通过比较图像雕刻联合空间内的一组字幕来更好地评估字幕的质量。通过与人文字幕和图像匹配的字幕进行比较,标题生成者有效地利用了人类语言的固有特征,并生成了更具歧视性的字幕。我们表明,我们提议的网络能够制作各种图像的准确和多样化字幕。

10
下载
关闭预览

相关内容

对抗学习是一种机器学习技术,旨在通过提供欺骗性输入来欺骗模型。最常见的原因是导致机器学习模型出现故障。大多数机器学习技术旨在处理特定的问题集,其中从相同的统计分布(IID)生成训练和测试数据。当这些模型应用于现实世界时,对手可能会提供违反该统计假设的数据。可以安排此数据来利用特定漏洞并破坏结果。
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关VIP内容
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员