斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

【导读】Justin Johnson,斯坦福大学博士,导师是计算机视觉领域顶级学者李飞飞博士。研究兴趣包括计算机视觉和机器学习方面,涉及到视觉推理、视觉和语言,以及使用深层神经网络生成图像。Johnson目前是Facebook AI Research的研究科学家。从2019年秋季开始,我将加入密歇根大学计算机科学与工程专业,担任助理教授。Johnson在2018年夏天完成博士学位,其博士论文组成式视觉智能《Compositional visual intelligence》,195页详述采用组合式学习的方法对计算机视觉中图像描述、视觉问答、文本图像生成三方面的问题进行了研究,是组合式视觉智能的代表性研究工作。

https://cs.stanford.edu/people/jcjohns/


博士论文《Compositional visual intelligence》

论文题目:

Compositional visual intelligence

作者:

Johnson Justin 

贡献者:

  • Li, Fei Fei, 1976- degree supervisor.

  • Goodman, Noah, degree committee member.

  • Ré, Christopher, degree committee member.

  • Stanford University. Computer Science Departmen

网址:

https://searchworks.stanford.edu/view/12746402

论文摘要:

计算机视觉领域在过去几年取得了巨大的进步,这主要归功于卷积神经网络。尽管在传统的计算机视觉任务上取得了成功,但我们的机器系统离人类的一般视觉智能还有很长的路要走。视觉智能的一个重要方面是组合——对整体的理解源于对部分的理解。为了实现组成视觉智能的目标,我们必须探索新的计算机视觉任务,创建新的数据集,开发利用组成性的新模型。在这篇论文中,我将讨论我的工作在三个不同的计算机视觉任务涉及语言,其中包含的合规性帮助我们建立具有更丰富的视觉智能的系统。我将首先讨论图像标题描述:传统系统生成描述图像的简短句子,但是通过将图像分解为区域和描述分解为短语,我们可以生成两种更丰富的描述:密集的标题和段落。其次,我将讨论视觉问答:现有的数据集主要由简短的问题组成;为了研究更复杂的需要复合位置推理的问题,我们引入了一个新的benchark数据集。在此基础上,提出了一种可视化问题交互的显式组成模型,该模型将问题转换为功能程序,并通过组合神经模块来执行这些程序。第三,我将讨论文本到图像生成:现有的系统可以根据文本描述检索或生成单个对象的简单图像,但难以处理更复杂的描述。用对象和关系的构成场景图代替自由形式的自然语言,可以检索和生成包含多个对象的复杂图像。

博士论文下载:

请关注专知公众号(点击上方蓝色专知进行关注)

  • 后台回复“CVI” 就可以获取Justin博士论文195页pdf下载链接

论文结构:

Abstract

Acknowledgments

1 Introduction   概述

2 Dense Captioning - 密集视觉描述

3  Descriptive Image Paragraphs 描述性图像段落

4 A Dataset for Compositional Visual Reasoning   一个组成式视觉推理数据集


5 Programs for Visual Reasoning   视觉推理程序执行

6 Image Retrieval with Scene Graphs   基于场景图的图像检索

7 Image Generation from Scene Graphs  从场景图生成图像

8 Conclusions  总结

  



-END-

专 · 知

人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!


请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!


请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

 AI 项目技术 & 商务合作:bd@zhuanzhi.ai, 或扫描上面二维码联系!

请关注专知公众号,获取人工智能的专业知识!


点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员