We combine a neural image captioner with a Rational Speech Acts (RSA) model to make a system that is pragmatically informative: its objective is to produce captions that are not merely true but also distinguish their inputs from similar images. Previous attempts to combine RSA with neural image captioning require an inference which normalizes over the entire set of possible utterances. This poses a serious problem of efficiency, previously solved by sampling a small subset of possible utterances. We instead solve this problem by implementing a version of RSA which operates at the level of characters ("a","b","c"...) during the unrolling of the caption. We find that the utterance-level effect of referential captions can be obtained with only character-level decisions. Finally, we introduce an automatic method for testing the performance of pragmatic speaker models, and show that our model outperforms a non-pragmatic baseline as well as a word-level RSA captioner.


翻译:我们把神经图像字幕与合理语音法案(RSA)模型结合起来,使系统具有实用性,信息丰富:它的目标是制作不仅真实而且区分其输入与类似图像的字幕。以前试图将神经图像字幕与神经图像字幕相结合,需要一种比喻,这对整个可能的语句组的演练情况具有共性。这造成了一个严重的效率问题,以前是通过抽样取样一小撮可能的语句来解决的。相反,我们通过在标题解开期间执行一个在字符级别(“a”,“b”,“c”)操作的RSA版本来解决这个问题。我们发现,只有字符级决定,才能获得特惠字幕的发音级效应。最后,我们引入了一种自动方法来测试实用演讲模型的性能,并显示我们的模型比非文字基线和一个字级的RSA字幕系统。

4
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
245+阅读 · 2020年6月16日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
4+阅读 · 2018年11月7日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关VIP内容
【干货书】《机器学习导论(第二版)》,348页pdf
专知会员服务
245+阅读 · 2020年6月16日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
4+阅读 · 2018年11月7日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
4+阅读 · 2018年3月14日
Top
微信扫码咨询专知VIP会员