【导读】Justin Johnson,斯坦福大学博士,导师是计算机视觉领域顶级学者李飞飞博士。研究兴趣包括计算机视觉和机器学习方面,涉及到视觉推理、视觉和语言,以及使用深层神经网络生成图像。Johnson目前是Facebook AI Research的研究科学家。从2019年秋季开始,我将加入密歇根大学计算机科学与工程专业,担任助理教授。Johnson在2018年夏天完成博士学位,其博士论文组成式视觉智能《Compositional visual intelligence》,195页详述采用组合式学习的方法对计算机视觉中图像描述、视觉问答、文本图像生成三方面的问题进行了研究,是组合式视觉智能的代表性研究工作。
https://cs.stanford.edu/people/jcjohns/
博士论文《Compositional visual intelligence》
论文题目:
作者:
Johnson Justin
贡献者:
Li, Fei Fei, 1976- degree supervisor.
Goodman, Noah, degree committee member.
Ré, Christopher, degree committee member.
Stanford University. Computer Science Departmen
网址:
https://searchworks.stanford.edu/view/12746402
论文摘要:
计算机视觉领域在过去几年取得了巨大的进步,这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功,但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标,我们必须探索新的计算机视觉任务,创建新的数据集,开发利用组成性的新模型。在这篇论文中,我将讨论我的工作在三个不同的计算机视觉任务涉及语言,其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子,但是通过将图像分解为区域和描述分解为短语,我们可以生成两种更丰富的描述:密集的标题和段落。其次,我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题,我们引入了一个新的benchark数据集。在此基础上,提出了一种可视化问题交互的显式组成模型,该模型将问题转换为功能程序,并通过组合神经模块来执行这些程序。第三,我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像,但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言,可以检索和生成包含多个对象的复杂图像。
博士论文下载:
请关注专知公众号(点击上方蓝色专知进行关注)
后台回复“CVI” 就可以获取Justin博士论文195页pdf下载链接~
论文结构:
Abstract
Acknowledgments
1 Introduction 概述
2 Dense Captioning - 密集视觉描述
3 Descriptive Image Paragraphs 描述性图像段落
4 A Dataset for Compositional Visual Reasoning 一个组成式视觉推理数据集
5 Programs for Visual Reasoning 视觉推理程序执行
6 Image Retrieval with Scene Graphs 基于场景图的图像检索
7 Image Generation from Scene Graphs 从场景图生成图像
8 Conclusions 总结
-END-
专 · 知
人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!
请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!
请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~
请关注专知公众号,获取人工智能的专业知识!
点击“阅读原文”,使用专知