基于场景图分解的自然语言描述生成 Comprehensive Image Captioning via Scene Graph Decomposition
本文由腾讯 AI Lab 主导,与威斯康星大学麦迪逊分校合作完成,提出了一种基于场景图分解的自然语言描述生成方法。
使用自然语言来描述图像是一项颇具挑战性的任务,本文通过重新回顾图像场景图表达,提出了一种基于场景图分解的图像自然语言描述生成方法。该方法的核心是把一张图片对应的场景图分解成多个子图,其中每个子图对应描述图像的一部分内容或一部分区域。通过神经网络选择重要的子图来生成一个描述图像的完整句子,该方法可以生成准确、多样化、可控的自然语言描述。研究者也进行了广泛的实验,实验结果展现了这一新模型的优势。
如图所示,新方法从输入图像生成场景图,并且分解为一系列子图。本文设计了一个子图生成网络(sGPN),用于学习识别有意义的子图,这些子图基于注意力的 LSTM 可以进一步解码生成句子,并且将短语匹配到图节点对应的图像区域。通过利用子图,模型可实现准确、多样化且可控制的图像描述生成。
https://www.zhuanzhi.ai/paper/97df62d67f87b9976eba899a617c099e