斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

2018 年 12 月 16 日 专知

【导读】Justin Johnson，斯坦福大学博士，导师是计算机视觉领域顶级学者李飞飞博士。研究兴趣包括计算机视觉和机器学习方面，涉及到视觉推理、视觉和语言，以及使用深层神经网络生成图像。Johnson目前是Facebook AI Research的研究科学家。从2019年秋季开始，我将加入密歇根大学计算机科学与工程专业，担任助理教授。Johnson在2018年夏天完成博士学位，其博士论文组成式视觉智能《Compositional visual intelligence》，195页详述采用组合式学习的方法对计算机视觉中图像描述、视觉问答、文本图像生成三方面的问题进行了研究，是组合式视觉智能的代表性研究工作。

https://cs.stanford.edu/people/jcjohns/

博士论文《Compositional visual intelligence》

论文题目：

Compositional visual intelligence

作者：

Johnson Justin

贡献者：

Li, Fei Fei, 1976- degree supervisor.
Goodman, Noah, degree committee member.
Ré, Christopher, degree committee member.
Stanford University. Computer Science Departmen

网址：

https://searchworks.stanford.edu/view/12746402

论文摘要：

计算机视觉领域在过去几年取得了巨大的进步，这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功，但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标，我们必须探索新的计算机视觉任务，创建新的数据集，开发利用组成性的新模型。在这篇论文中，我将讨论我的工作在三个不同的计算机视觉任务涉及语言，其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子，但是通过将图像分解为区域和描述分解为短语，我们可以生成两种更丰富的描述:密集的标题和段落。其次，我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题，我们引入了一个新的benchark数据集。在此基础上，提出了一种可视化问题交互的显式组成模型，该模型将问题转换为功能程序，并通过组合神经模块来执行这些程序。第三，我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像，但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言，可以检索和生成包含多个对象的复杂图像。

博士论文下载：

请关注专知公众号（点击上方蓝色专知进行关注）

后台回复“CVI” 就可以获取Justin博士论文195页pdf下载链接~

论文结构：

Abstract

Acknowledgments

1 Introduction 概述

2 Dense Captioning - 密集视觉描述

3 Descriptive Image Paragraphs 描述性图像段落

4 A Dataset for Compositional Visual Reasoning 一个组成式视觉推理数据集

5 Programs for Visual Reasoning 视觉推理程序执行

6 Image Retrieval with Scene Graphs 基于场景图的图像检索

7 Image Generation from Scene Graphs 从场景图生成图像

8 Conclusions 总结

-END-

专 · 知

人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群，获取专业知识教程视频资料和与专家交流咨询！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请加专知小助手微信（扫一扫如下二维码添加），加入专知主题群（请备注主题类型：AI、NLP、CV、 KG等）交流~

AI 项目技术 & 商务合作：bd@zhuanzhi.ai, 或扫描上面二维码联系！

请关注专知公众号，获取人工智能的专业知识！

点击“阅读原文”，使用专知

登录查看更多

相关内容

李飞飞

关注 9

李飞飞，女，1976年出生于北京，长在四川，16岁随父母移居美国新泽西州。 2015年12月1日，入选2015年“全球百大思想者”。2018年3月，获“影响世界华人大奖”。现为美国斯坦福大学教授、斯坦福大学人工智能实验室与视觉实验室负责人、谷歌云人工智能和机器学习首席科学家，斯坦福以人为本人工智能研究院共同院长。

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

【CVPR2020-微软&FB】自监督学习的视觉语言建模，115页ppt讲述多模态预训练进展

专知会员服务

59+阅读 · 2020年6月18日

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

65+阅读 · 2019年10月27日