对图像的细粒度理解有两个方面:视觉理解和语义理解。前者致力于理解图像中对象的内在属性,而后者旨在将不同的对象与一定的语义联系起来。这些都是深入理解图像的基础。今天的深度卷积网络默认架构已经在捕捉图像的2D视觉外观,并随后将视觉内容映射到语义类方面表现出了惊人的能力。然而,关于细粒度图像理解的研究,如推断固有的3D信息和更结构化的语义,却很少被探索。在本文中,我们通过提出“如何更好地利用几何来更好地理解图像?”

  • 第一部分研究了基于三维几何的视觉图像理解。有可能用无纹理的3D形状自动解释图像中的各种视觉内容。开发了一种深度学习框架,从2D图像中可靠地恢复一组3D几何属性,如物体的姿态及其形状的表面法线。
  • 在第二部分中,我们探索了用于图像语义理解的标签几何。发现一组图像分类问题具有几何上相似的概率空间。因此,引入标记几何,统一了one-vs rest分类、多标签分类和分布外分类放在一个框架中。此外,学习的层次标签几何可以平衡图像分类器的准确性和特异性。

引言

多伦多大学于2012年取得了彻底改变现代计算机视觉的突破[83]。他们的深度学习架构AlexNet在模拟大规模ImageNet计算机视觉挑战[134]中取得了巨大的成功,在该挑战中,一个算法被要求将数百万张图像分类为1000个类别。这个图像分类模型,被称为深度卷积神经网络(DCNN),是受到我们大脑中数十亿相互连接的神经元的启发。通常,深度卷积神经网络建立在一堆卷积层之上,每一层包含数十万个功能连接,即人工神经元。视觉表征被一层一层地处理和转换,类似于大脑视觉皮层中神经元的功能。与传统的手工特征相比,例如[144,14,104,22,39],DCNN可以通过梯度反向传播以端到端的方式从头开始训练。这使我们在设计手工特征描述符时摆脱了对专业知识的依赖。如今,更深[143]、更广[176]和拥有更多连接[66]是新出现的深度神经网络架构的关键特征[70,33,147,41]。随着深度神经网络容量的不断增加,计算机在图像分类[58]上的准确率正达到人类水平,甚至超越人类。在目标检测[47,132,59,130,101],动作识别[142,150,32,159,15,161,174],创建艺术或照片逼真的[181,73]图像以及许多其他应用中也取得了类似的成功。

尽管最近在使用深度学习解决计算机视觉问题方面取得了进展,但对图像进行细粒度的理解仍然具有挑战性。通常,对图像的理解是双重的:视觉理解和语义理解。前者努力理解图像中物体的内在属性,例如2D视觉外观、3D形状、3D位置和3D姿态等,而后者旨在将不同的物体与特定的语义联系起来,例如物体的类别名称[47,132,59,130,101]、动作[142,150,32,159,15,161,174]或属性[135,99,158,135]。所有这些构成了深入理解我们希望机器拥有的图像的基础。当今的深度卷积网络默认架构已经在捕捉二维域图像的视觉外观,并将视觉内容映射到特定的语义类(如图像分类、动作识别)方面表现出了惊人的能力。然而,关于细粒度图像理解的研究,如推断固有的3D信息和更结构化的语义,却很少被探索。本文通过研究如何利用几何来更好地理解图像,在这两方面做出了贡献。激发我们的角度来看待图像的视觉理解和语义理解问题。

成为VIP会员查看完整内容
42

相关内容

阿姆斯特丹大学(荷兰文:Universiteit van Amsterdam,缩写为 UvA),成立于1632年,坐落在荷兰首都阿姆斯特丹市中心。阿姆斯特丹大学是历史悠久的著名世界百强学府,也是欧洲最大的综合性大学之一,拥有众多国际学生交流项目和优良的国际声誉。它同时是Universitas 21大学联盟、欧洲大学协会、欧洲研究型大学联盟与欧洲首都大学联盟成员之一。[1] 阿姆斯特丹大学有高质量的研究生和世界前沿的研究培训,同时本科教育也是世界最优秀的之一。它产生过6名诺贝尔奖得主,其中诺贝尔物理学家得主3名,和平、医学和化学奖得主各一名。 如今,作为研究型大学的阿姆斯特丹大学有超过30000名学生,5000名员工和285个研究项目(学士和硕士项目),其中许多都是用英语授课的。阿姆斯特丹大学拥有超过6亿欧元的预算,大学学院星罗棋布地分布在阿姆斯特丹城市的各个角落,目前该校设有七个学院:人文学院、社会与行为科学学院、商学院、法学院、理学院、医学院和牙医学院。 阿姆斯特丹大学的声誉享誉全球,被誉为“欧洲的哈佛”。在2020年度USNEWS世界大学排名中,位列世界第四十位,欧盟区位列前三。
【悉尼大学博士论文】深度3D信息预测与理解,184页pdf
专知会员服务
41+阅读 · 2022年12月27日
【CMU博士论文】无人工监督的视觉表示与识别,126页pdf
专知会员服务
35+阅读 · 2022年12月14日
【MIT博士论文】深度学习几何表示,138页pdf
专知会员服务
71+阅读 · 2022年9月4日
【斯坦福大学博士论文】自监督场景表示学习, 97页pdf
专知会员服务
94+阅读 · 2020年6月19日
用深度学习做文本摘要
专知
24+阅读 · 2019年3月30日
深度学习的图像修复
AI研习社
22+阅读 · 2019年3月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2023年5月11日
Arxiv
13+阅读 · 2022年10月27日
3D Deep Learning on Medical Images: A Review
Arxiv
12+阅读 · 2020年4月1日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员