对于一张包含了许多文字信息的图片,不同的人感兴趣的文字信息可能是不同的。然而目前对于图片文字敏感的图像描述模型并不能根据不同的信息需求生成个性化的描述。为了研究如何生成个性化的关于图片文字的描述,我们定义了一个新的具有挑战的任务,名为“问题控制的图片文字敏感的图像描述”(Qc-TextCap)。这个任务采用问题作为控制信号,要求模型首先理解问题,然后找到对应的图片文字,最后结合图像中的对象用流利的人类语言描述出来。我们基于已有的两个“图片文字敏感的图像描述”数据集自动构建了两个适合Qc-TextCap的数据集:ControlTextCaps和ControlVizWiz。我们进一步提出了一个新颖的对空间位置和问题敏感的模型(GQAM),可以逐步地编码相关的视觉特征和文本特征以支持最后的描述生成。考虑到图像中对象区域和文字区域的空间关系,GQAM首先应用一个空间视觉编码器去融合相关的视觉特征。然后我们使用一个问题导向的编码器去为每个问题挑选最相关的视觉特征。最后,GQAM使用一个多模态解码器生成图像描述。我们的模型在两个数据集上的效果都超过了基准模型。通过问题作为控制信号,我们的模型可以得到更加多样,更有信息量的图像描述。

https://www.zhuanzhi.ai/paper/8d2e55a9222e9441dfb651d02d3bdb1c

成为VIP会员查看完整内容
18

相关内容

ACM 国际多媒体大会(英文名称:ACM Multimedia,简称:ACM MM)是多媒体领域的顶级国际会议,每年举办一次。
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
15+阅读 · 2021年11月14日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
69+阅读 · 2021年3月29日
【AAAI2021】双级协作变换器Transformer图像描述生成
专知会员服务
26+阅读 · 2021年1月26日
专知会员服务
65+阅读 · 2020年12月24日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【ECCV2020】基于场景图分解的自然语言描述生成
专知会员服务
23+阅读 · 2020年9月3日
AAAI 2020 | 多模态基准指导的生成式多模态自动文摘
AI科技评论
16+阅读 · 2020年1月5日
7篇必读ACM MM 2019论文:图神经网络+多媒体
新智元
43+阅读 · 2019年11月9日
基于对偶学习的跨领域图片描述生成
PaperWeekly
6+阅读 · 2017年11月7日
Query Embedding on Hyper-relational Knowledge Graphs
Arxiv
4+阅读 · 2021年6月17日
Arxiv
3+阅读 · 2018年3月21日
Arxiv
4+阅读 · 2018年1月19日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
15+阅读 · 2021年11月14日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
69+阅读 · 2021年3月29日
【AAAI2021】双级协作变换器Transformer图像描述生成
专知会员服务
26+阅读 · 2021年1月26日
专知会员服务
65+阅读 · 2020年12月24日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
42+阅读 · 2020年9月8日
【ECCV2020】基于场景图分解的自然语言描述生成
专知会员服务
23+阅读 · 2020年9月3日
微信扫码咨询专知VIP会员