【ECCV2020】基于场景图分解的自然语言描述生成 - 专知VIP

会员服务 ·

5

自然语言描述 · 场景图 ·

2020 年 9 月 3 日

【ECCV2020】基于场景图分解的自然语言描述生成

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

基于场景图分解的自然语言描述生成 Comprehensive Image Captioning via Scene Graph Decomposition

本文由腾讯 AI Lab 主导，与威斯康星大学麦迪逊分校合作完成，提出了一种基于场景图分解的自然语言描述生成方法。

使用自然语言来描述图像是一项颇具挑战性的任务，本文通过重新回顾图像场景图表达，提出了一种基于场景图分解的图像自然语言描述生成方法。该方法的核心是把一张图片对应的场景图分解成多个子图，其中每个子图对应描述图像的一部分内容或一部分区域。通过神经网络选择重要的子图来生成一个描述图像的完整句子，该方法可以生成准确、多样化、可控的自然语言描述。研究者也进行了广泛的实验，实验结果展现了这一新模型的优势。

如图所示，新方法从输入图像生成场景图，并且分解为一系列子图。本文设计了一个子图生成网络（sGPN），用于学习识别有意义的子图，这些子图基于注意力的 LSTM 可以进一步解码生成句子，并且将短语匹配到图节点对应的图像区域。通过利用子图，模型可实现准确、多样化且可控制的图像描述生成。

https://www.zhuanzhi.ai/paper/97df62d67f87b9976eba899a617c099e

成为VIP会员查看完整内容

24

相关内容

自然语言描述

自然语言描述

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【ECCV2020-旷视】利用边界特征做检测的BorderDet

专知会员服务

13+阅读 · 2020年9月19日

【CIKM2020】通过意图描述生成进行查询理解

专知会员服务

21+阅读 · 2020年9月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

AI科技评论

14+阅读 · 2020年3月16日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++

ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++

PaperWeekly

4+阅读 · 2019年11月8日

CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

新智元

7+阅读 · 2019年6月23日

【泡泡一分钟】基于图神经网络的情景识别

【泡泡一分钟】基于图神经网络的情景识别

泡泡机器人SLAM

11+阅读 · 2018年11月21日

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

全球人工智能

7+阅读 · 2018年4月11日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

GAN生成式对抗网络

9+阅读 · 2018年4月3日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

End-to-End Multi-speaker Speech Recognition with Transformer

Arxiv

8+阅读 · 2020年2月13日

Multi-Label Classification with Label Graph Superimposing

Arxiv

9+阅读 · 2019年11月21日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

f-VAEGAN-D2: A Feature Generating Framework for Any-Shot Learning

Arxiv

11+阅读 · 2019年3月25日

A sequential guiding network with attention for image captioning

A sequential guiding network with attention for image captioning

Arxiv

5+阅读 · 2019年2月8日

Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks

Arxiv

3+阅读 · 2018年6月6日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

An Improved Evaluation Framework for Generative Adversarial Networks

Arxiv

3+阅读 · 2018年3月27日

VIP会员

相关主题

自然语言描述

相关VIP内容

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成

专知会员服务

74+阅读 · 2020年9月25日

【ECCV2020-旷视】利用边界特征做检测的BorderDet

专知会员服务

13+阅读 · 2020年9月19日

【CIKM2020】通过意图描述生成进行查询理解

专知会员服务

21+阅读 · 2020年9月11日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

【斯坦福大学】场景图谱表示在计算机视觉中的应用，41页ppt

专知会员服务

52+阅读 · 2020年1月8日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型基准综述

《自适应训练辅助系统概念导论及其在空战指挥官加速培训中的应用》125页

【剑桥博士论文】多智能体学习中的神经多样性

以色列-伊朗空战：短暂而激烈冲突的启示

相关资讯

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

AI科技评论

14+阅读 · 2020年3月16日

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

复旦大学：利用场景图针对图像序列进行故事生成 | AAAI 2020

AI科技评论

10+阅读 · 2019年12月23日

ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++

ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++

PaperWeekly

4+阅读 · 2019年11月8日

CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

CVPR 2019：微软最新提出ObjGAN，输入一句话秒生成图片

新智元

7+阅读 · 2019年6月23日

【泡泡一分钟】基于图神经网络的情景识别

【泡泡一分钟】基于图神经网络的情景识别

泡泡机器人SLAM

11+阅读 · 2018年11月21日

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

最新！斯坦福联合谷歌使用图卷积和GAN从场景图中生成图像

全球人工智能

7+阅读 · 2018年4月11日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

【深度】如何「看图说话」?Facebook提出全新的基于图像实体的「图像字幕」框架

GAN生成式对抗网络

9+阅读 · 2018年4月3日

相关论文

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

End-to-End Multi-speaker Speech Recognition with Transformer

Arxiv

8+阅读 · 2020年2月13日

Multi-Label Classification with Label Graph Superimposing

Arxiv

9+阅读 · 2019年11月21日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

f-VAEGAN-D2: A Feature Generating Framework for Any-Shot Learning

Arxiv

11+阅读 · 2019年3月25日

A sequential guiding network with attention for image captioning

A sequential guiding network with attention for image captioning

Arxiv

5+阅读 · 2019年2月8日

Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks

Arxiv

3+阅读 · 2018年6月6日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

An Improved Evaluation Framework for Generative Adversarial Networks

Arxiv

3+阅读 · 2018年3月27日

微信扫码咨询专知VIP会员