The contemporary visual captioning models frequently hallucinate objects that are not actually in a scene, due to the visual misclassification or over-reliance on priors that resulting in the semantic inconsistency between the visual information and the target lexical words. The most common way is to encourage the captioning model to dynamically link generated object words or phrases to appropriate regions of the image, i.e., the grounded image captioning (GIC). However, GIC utilizes an auxiliary task (grounding objects) that has not solved the key issue of object hallucination, i.e., the semantic inconsistency. In this paper, we take a novel perspective on the issue above - exploiting the semantic coherency between the visual and language modalities. Specifically, we propose the Consensus Rraph Representation Learning framework (CGRL) for GIC that incorporates a consensus representation into the grounded captioning pipeline. The consensus is learned by aligning the visual graph (e.g., scene graph) to the language graph that consider both the nodes and edges in a graph. With the aligned consensus, the captioning model can capture both the correct linguistic characteristics and visual relevance, and then grounding appropriate image regions further. We validate the effectiveness of our model, with a significant decline in object hallucination (-9% CHAIRi) on the Flickr30k Entities dataset. Besides, our CGRL also evaluated by several automatic metrics and human evaluation, the results indicate that the proposed approach can simultaneously improve the performance of image captioning (+2.9 Cider) and grounding (+2.3 F1LOC).


翻译:当代视觉字幕模型经常产生幻觉,但实际上并不在现场,原因是视觉分类错误或过度依赖前题,导致视觉信息与目标词汇的语义不一致。最常见的方式是鼓励字幕模型动态地将生成的物体文字或短语与图像的适当区域(即有根图像字幕(GIC))链接起来。然而,GIC利用了一个辅助任务(地表对象),没有解决物体幻觉的关键问题,即语义不一致。在本文中,我们对上述问题采取新的视角----利用视觉信息和语言模式之间的语义一致性。具体地说,我们建议GIC采用“共识拉普代表语言学习框架”(CGRL),将协商一致的表达方式纳入有根字幕的管道(GIC)。然而,GIC利用视觉图表(eg),没有解决对象和边缘的关键问题,即语义不一致。根据一致的共识,C-9+L的语义模型可以利用视觉图像的准确性能和直径直径比(我们C-S-SL)的图像实体。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
深度强化学习策略梯度教程,53页ppt
专知会员服务
175+阅读 · 2020年2月1日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
337+阅读 · 2020年1月27日
专知会员服务
53+阅读 · 2019年12月22日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
Top
微信扫码咨询专知VIP会员