【ACMMM2021】问题控制的文本感知图像描述生成 - 专知VIP

会员服务 ·

2

ACM Multimedia · 图像描述生成（Image Caption） ·

2021 年 9 月 23 日

【ACMMM2021】问题控制的文本感知图像描述生成

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

对于一张包含了许多文字信息的图片，不同的人感兴趣的文字信息可能是不同的。然而目前对于图片文字敏感的图像描述模型并不能根据不同的信息需求生成个性化的描述。为了研究如何生成个性化的关于图片文字的描述，我们定义了一个新的具有挑战的任务，名为“问题控制的图片文字敏感的图像描述”（Qc-TextCap）。这个任务采用问题作为控制信号，要求模型首先理解问题，然后找到对应的图片文字，最后结合图像中的对象用流利的人类语言描述出来。我们基于已有的两个“图片文字敏感的图像描述”数据集自动构建了两个适合Qc-TextCap的数据集：ControlTextCaps和ControlVizWiz。我们进一步提出了一个新颖的对空间位置和问题敏感的模型（GQAM），可以逐步地编码相关的视觉特征和文本特征以支持最后的描述生成。考虑到图像中对象区域和文字区域的空间关系，GQAM首先应用一个空间视觉编码器去融合相关的视觉特征。然后我们使用一个问题导向的编码器去为每个问题挑选最相关的视觉特征。最后，GQAM使用一个多模态解码器生成图像描述。我们的模型在两个数据集上的效果都超过了基准模型。通过问题作为控制信号，我们的模型可以得到更加多样，更有信息量的图像描述。

https://www.zhuanzhi.ai/paper/8d2e55a9222e9441dfb651d02d3bdb1c

成为VIP会员查看完整内容

19

相关内容

ACM Multimedia

ACM 国际多媒体大会（英文名称：ACM Multimedia，简称：ACM MM）是多媒体领域的顶级国际会议，每年举办一次。

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

最新《图像描述Image Captioning》综述论文，22页pdf220篇文献

专知会员服务

43+阅读 · 2021年7月17日

图像描述生成研究进展

专知会员服务

70+阅读 · 2021年3月29日

【AAAI2021】双级协作变换器Transformer图像描述生成

【AAAI2021】双级协作变换器Transformer图像描述生成

专知会员服务

27+阅读 · 2021年1月26日

从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

67+阅读 · 2020年12月24日

【复旦大学】从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

80+阅读 · 2020年9月10日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ECCV2020】基于场景图分解的自然语言描述生成

【ECCV2020】基于场景图分解的自然语言描述生成

专知会员服务

24+阅读 · 2020年9月3日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知

7+阅读 · 2020年4月7日

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

AI科技评论

14+阅读 · 2020年3月16日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

7篇必读ACM MM 2019论文：图神经网络+多媒体

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

专知

42+阅读 · 2019年11月5日

ACM MM | 中山大学等提出HSE：基于层次语义嵌入模型的精细化物体分类

ACM MM | 中山大学等提出HSE：基于层次语义嵌入模型的精细化物体分类

极市平台

4+阅读 · 2018年9月5日

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

GAN生成式对抗网络

9+阅读 · 2018年4月3日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

基于对偶学习的跨领域图片描述生成

基于对偶学习的跨领域图片描述生成

PaperWeekly

6+阅读 · 2017年11月7日

Jointly Optimizing Query Encoder and Product Quantization to Improve Retrieval Performance

Arxiv

6+阅读 · 2021年8月2日

Query Embedding on Hyper-relational Knowledge Graphs

Query Embedding on Hyper-relational Knowledge Graphs

Arxiv

4+阅读 · 2021年6月17日

Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval

Arxiv

4+阅读 · 2021年5月8日

Learning Graph Embeddings for Compositional Zero-shot Learning

Arxiv

3+阅读 · 2021年5月3日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

Unsupervised Cross-lingual Representation Learning at Scale

Arxiv

5+阅读 · 2019年11月5日

Inferring Concept Hierarchies from Text Corpora via Hyperbolic Embeddings

Inferring Concept Hierarchies from Text Corpora via Hyperbolic Embeddings

Arxiv

8+阅读 · 2019年2月3日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

Fluency-Guided Cross-Lingual Image Captioning

Arxiv

3+阅读 · 2017年8月15日

VIP会员

相关主题

图像描述生成（Image Caption）

相关VIP内容

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答

专知会员服务

16+阅读 · 2021年11月14日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

最新《图像描述Image Captioning》综述论文，22页pdf220篇文献

专知会员服务

43+阅读 · 2021年7月17日

图像描述生成研究进展

专知会员服务

70+阅读 · 2021年3月29日

【AAAI2021】双级协作变换器Transformer图像描述生成

【AAAI2021】双级协作变换器Transformer图像描述生成

专知会员服务

27+阅读 · 2021年1月26日

从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

67+阅读 · 2020年12月24日

【复旦大学】从视觉到文本: 图像描述生成的研究进展综述

专知会员服务

80+阅读 · 2020年9月10日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ECCV2020】基于场景图分解的自然语言描述生成

【ECCV2020】基于场景图分解的自然语言描述生成

专知会员服务

24+阅读 · 2020年9月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知

7+阅读 · 2020年4月7日

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

AI科技评论

14+阅读 · 2020年3月16日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

7篇必读ACM MM 2019论文：图神经网络+多媒体

7篇必读ACM MM 2019论文：图神经网络+多媒体

新智元

43+阅读 · 2019年11月9日

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

近期必读的7篇 ACM MM 2019【图神经网络（GNN）+多媒体（MM）】相关论文

专知

42+阅读 · 2019年11月5日

ACM MM | 中山大学等提出HSE：基于层次语义嵌入模型的精细化物体分类

ACM MM | 中山大学等提出HSE：基于层次语义嵌入模型的精细化物体分类

极市平台

4+阅读 · 2018年9月5日

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

GAN生成式对抗网络

9+阅读 · 2018年4月3日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

基于对偶学习的跨领域图片描述生成

基于对偶学习的跨领域图片描述生成

PaperWeekly

6+阅读 · 2017年11月7日

相关论文

Jointly Optimizing Query Encoder and Product Quantization to Improve Retrieval Performance

Arxiv

6+阅读 · 2021年8月2日

Query Embedding on Hyper-relational Knowledge Graphs

Query Embedding on Hyper-relational Knowledge Graphs

Arxiv

4+阅读 · 2021年6月17日

Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval

Arxiv

4+阅读 · 2021年5月8日

Learning Graph Embeddings for Compositional Zero-shot Learning

Arxiv

3+阅读 · 2021年5月3日

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

LayoutLM: Pre-training of Text and Layout for Document Image Understanding

Arxiv

12+阅读 · 2020年2月19日

Unsupervised Cross-lingual Representation Learning at Scale

Arxiv

5+阅读 · 2019年11月5日

Inferring Concept Hierarchies from Text Corpora via Hyperbolic Embeddings

Inferring Concept Hierarchies from Text Corpora via Hyperbolic Embeddings

Arxiv

8+阅读 · 2019年2月3日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

Fluency-Guided Cross-Lingual Image Captioning

Arxiv

3+阅读 · 2017年8月15日

微信扫码咨询专知VIP会员