作为人类,我们天生就有一种关于场景或图片中物体的概念。即使没有颜色或纹理,我们也能识别物体的存在。我们对物体的感知通常不是原子式的,有时是任务依赖的。我们甚至可以毫不犹豫地识别和计数未见过类别的物体实例。心理学研究提到过格式塔法则,作为我们在没有监督的情况下寻找物体的线索。拥有正确的基础,使机器能够在没有监督的情况下识别场景中的物体,可以减少对手工标注训练数据集的依赖。因此,模型会具有更好的领域外泛化能力。此外,它可以通过限制人与训练数据集的互动,绕过训练数据集固有的偏差。根据设计选择,模型可能会变得更加可靠、值得信赖和可解释。本文讨论了神经网络架构设计和训练方法,使其能够在没有监督的情况下将图像分解为感兴趣的物体。二维无监督物体分割的主要挑战是区分感兴趣的前景物体和背景。FlowCapsules 使用运动作为二维场景中感兴趣物体的线索。本文的最后部分集中在三维应用中,目标是从输入图像中检测和去除感兴趣的物体。在这些任务中,我们利用三维场景的几何一致性来检测不一致的动态物体。我们的瞬态物体掩码随后用于设计鲁棒的优化内核,以改进随意拍摄设置下的三维建模。本文的目标之一是展示计算机视觉中无监督物体方法的优点。此外,我们提出了在不需要监督的情况下定义感兴趣物体或前景物体的可能方向。我们的希望是激励并激发社区进一步探索图像理解任务中的显式物体表示。

成为VIP会员查看完整内容
0

相关内容

在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由于单视频的信息不完全,因此三维重建需要利用经验知识. 而多视图的三维重建(类似人的双目定位)相对比较容易, 其方法是先对摄像机进行标定, 即计算出摄像机的图象坐标系与世界坐标系的关系.然后利用多个二维图象中的信息重建出三维信息。 物体三维重建是计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等领域的共性科学问题和核心技术。在计算机内生成物体三维表示主要有两类方法。一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状。前者实现技术已经十分成熟,现有若干软件支持,比如:3DMAX、Maya、AutoCAD、UG等等,它们一般使用具有数学表达式的曲线曲面表示几何形状。后者一般称为三维重建过程,三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术,包括数据获取、预处理、点云拼接和特征分析等步骤。
【CUHK博士论文】现代机器学习中的因果性学习
专知会员服务
30+阅读 · 1月24日
【CMU博士论文】以人为中心的机器学习:统计和算法视角
专知会员服务
40+阅读 · 2023年10月1日
【NUS博士论文】深度视觉算法的对抗鲁棒性研究
专知会员服务
32+阅读 · 2022年11月25日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
16+阅读 · 2019年1月24日
论文浅尝 | 基于置信度的知识图谱表示学习框架
开放知识图谱
24+阅读 · 2018年2月27日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
166+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员