人们普遍认为,一个词的标题的不确定性越高,就需要更多相互关联的上下文信息来确定它。然而,目前的图像描述生成方法通常考虑顺序、平等地生成句子中的所有单词。在本文中,我们提出了一个不确定性感知的图像描述成框架,该框架并行迭代地在已有词之间从易到难插入不连续候选词,直到收敛。我们假设句子中的高不确定性词需要更多的先验信息才能做出正确的决定,应该在后面的阶段产生。由此产生的非自回归层次结构使得标题生成可解释且直观。具体来说,我们利用图像条件下的单词袋模型来测量单词的不确定度,并应用动态规划算法来构造训练对。在推理过程中,我们设计了一种不确定性自适应并行波束搜索技术,它产生了一个经验对数时间复杂度。在MS COCO基准上的大量实验表明,我们的方法在描述质量和解码速度上都优于强基准和相关方法。
https://www.zhuanzhi.ai/paper/51c79cb91932a14e0000e8d71d3f8399