对于一张包含了许多文字信息的图片,不同的人感兴趣的文字信息可能是不同的。然而目前对于图片文字敏感的图像描述模型并不能根据不同的信息需求生成个性化的描述。为了研究如何生成个性化的关于图片文字的描述,我们定义了一个新的具有挑战的任务,名为“问题控制的图片文字敏感的图像描述”(Qc-TextCap)。这个任务采用问题作为控制信号,要求模型首先理解问题,然后找到对应的图片文字,最后结合图像中的对象用流利的人类语言描述出来。我们基于已有的两个“图片文字敏感的图像描述”数据集自动构建了两个适合Qc-TextCap的数据集:ControlTextCaps和ControlVizWiz。我们进一步提出了一个新颖的对空间位置和问题敏感的模型(GQAM),可以逐步地编码相关的视觉特征和文本特征以支持最后的描述生成。考虑到图像中对象区域和文字区域的空间关系,GQAM首先应用一个空间视觉编码器去融合相关的视觉特征。然后我们使用一个问题导向的编码器去为每个问题挑选最相关的视觉特征。最后,GQAM使用一个多模态解码器生成图像描述。我们的模型在两个数据集上的效果都超过了基准模型。通过问题作为控制信号,我们的模型可以得到更加多样,更有信息量的图像描述。
https://www.zhuanzhi.ai/paper/8d2e55a9222e9441dfb651d02d3bdb1c