Our goal in this work is to train an image captioning model that generates more dense and informative captions. We introduce "relational captioning," a novel image captioning task which aims to generate multiple captions with respect to relational information between objects in an image. Relational captioning is a framework that is advantageous in both diversity and amount of information, leading to image understanding based on relationships. Part-of speech (POS, i.e. subject-object-predicate categories) tags can be assigned to every English word. We leverage the POS as a prior to guide the correct sequence of words in a caption. To this end, we propose a multi-task triple-stream network (MTTSNet) which consists of three recurrent units for the respective POS and jointly performs POS prediction and captioning. We demonstrate more diverse and richer representations generated by the proposed model against several baselines and competing methods.


翻译:我们在这项工作中的目标是训练一个图像字幕模型,该模型产生更加密集和内容更加丰富的字幕。我们引入了“关系字幕”,这是一项新颖的图像字幕任务,旨在生成图像中对象之间关联信息方面的多个标题。关系字幕是一个在信息的多样性和数量上都具有优势的框架,导致基于关系对图像的理解。可以给每一个英语单词指定部分语言标记(POS,即主题对象和对象类别)。我们利用 POS作为前台指导标题中正确顺序的文字。为此,我们提议建立一个多任务三流网络(MTTSNet),由不同的 POS 三个经常性单位组成,共同进行POS 预测和字幕。我们用多个基线和相互竞争的方法展示了拟议模型产生的更加多样和更加丰富的表达方式。

4
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
67+阅读 · 2020年2月29日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
已删除
将门创投
12+阅读 · 2017年10月13日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
6+阅读 · 2019年4月4日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月21日
VIP会员
相关VIP内容
Capsule Networks,胶囊网络,57页ppt,布法罗大学
专知会员服务
67+阅读 · 2020年2月29日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
已删除
将门创投
12+阅读 · 2017年10月13日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关论文
Arxiv
6+阅读 · 2019年4月4日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Image Captioning based on Deep Reinforcement Learning
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月21日
Top
微信扫码咨询专知VIP会员