Automatic image captioning has recently approached human-level performance due to the latest advances in computer vision and natural language understanding. However, most of the current models can only generate plain factual descriptions about the content of a given image. However, for human beings, image caption writing is quite flexible and diverse, where additional language dimensions, such as emotion, humor and language styles, are often incorporated to produce diverse, emotional, or appealing captions. In particular, we are interested in generating sentiment-conveying image descriptions, which has received little attention. The main challenge is how to effectively inject sentiments into the generated captions without altering the semantic matching between the visual content and the generated descriptions. In this work, we propose two different models, which employ different schemes for injecting sentiments into image captions. Compared with the few existing approaches, the proposed models are much simpler and yet more effective. The experimental results show that our model outperform the state-of-the-art models in generating sentimental (i.e., sentiment-bearing) image captions. In addition, we can also easily manipulate the model by assigning different sentiments to the testing image to generate captions with the corresponding sentiments.


翻译:最近,由于计算机视觉和自然语言理解方面的最新进步,自动字幕接近了人类层面的性能。然而,目前大多数模型只能产生对特定图像内容的简单事实描述。然而,对于人类来说,图像字幕写作相当灵活和多样,其额外的语言层面,如情感、幽默和语言风格,往往被结合到其中,以产生多样化、情感或吸引性的字幕。特别是,我们有兴趣生成情绪调和图像描述,但这种描述很少引起注意。主要的挑战是如何有效地将情感注入生成的字幕中,而不改变视觉内容和生成描述之间的语义匹配。在这项工作中,我们提出了两种不同的模型,采用不同的方案将情感注入图像说明中。与现有的少数几种方法相比,拟议的模型更为简单而有效。实验结果表明,我们的模型在产生感性(即情感-情感-情感-情感-情感-情感)图像描述方面超越了最先进的模型。此外,我们还可以很容易地通过将不同的情感分配到测试图像上的不同情感,从而产生与对应情感的字幕来操纵模型。

16
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
22+阅读 · 2019年10月18日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
89+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2019年8月7日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
22+阅读 · 2019年10月18日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
89+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
4+阅读 · 2019年8月7日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
3+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员