会员服务 ·

0

谷歌新论文：教机器人预测3D结构、然后抓取物体

2017 年 9 月 2 日 量子位 专注报道AI

王小新编译自 GitHub
量子位出品 | 公众号 QbitAI

最近，Google的一组科研人员完成了一篇新论文：基于几何感知表征的抓取交互学习（Learning Grasping Interaction with Geometry-aware Representations），论文提出了一种几何感知编码器-解码器网络，利用几何感知表征来学习实现抓取交互。

这篇论文的作者包括：密歇根大学的前谷歌大脑实习生Xinchen Yan，谷歌大脑的Jasmine Hsu、James Davidson，Google X的Mohi Khansari、Yunfei Bai、以及谷歌、谷歌研究院的Arkanath Pathak、Abhinav Gupta。

具体效果如何呢？作者还提供了一个关于实验结果的简短演示视频：

以下，是论文主要内容的介绍：

论文摘要

学习与环境中的物体进行交互是一个涉及到感知、运动规划和控制的根本性AI问题。然而，由于存在高维状态空间、很难创建大规模数据集和很难关注到物体外观的多类变化信息（如几何结构、材质、纹理和照射度等），因此学习此类交互表征十分具有挑战性。

我们论证了物体3D几何结构是抓取交互的研究核心，并提出一种称为几何感知学习智能体（geometry-aware learning agent）的新概念。

本文的核心思想是通过3D几何学预测来约束和规范交互学习。

具体地说，本文把几何感知智能体的学习过程分为两个步骤：首先，智能体通过3D形态生成模型，从2D感知输入中学习构建当前场景的几何感知表征；然后，它通过内置的几何感知表征来学习预测抓取结果。这种几何感知表征方法利用一种新颖的无学习（learning-free）深度投影层，在几何学与交互的关联研究中起到了关键作用。

本文的主要贡献有三方面：（1）我们利用虚拟现实（VR）演示构建了一个具有丰富感知和交互标注的抓取数据集；（2）我们证明了，与基准模型相比，学习几何感知表征能得到一个鲁棒性更好的抓取结果预测效果；（3）我们也展示了这种几何感知表征学习方法在抓取规划中的优势。

实现方法

△ 两阶段学习框架示意图

我们提出了一种两阶段的学习框架，分别执行3D形态预测和利用几何感知表征进行抓取结果预测。给定任何场景下的2D感知输入，都能生成相应的3D物体形状（如体积表征），这是本文所提出的几何感知智能体中一个非常重要的特性。更具体地说，

在本文构想中，几何感知表征可理解为:（1）一种在世界坐标系下以相机目标为中心的场景的占用网格表征方法，和（2）其对相机视角和距离具有不变性。

模型结构

△ 几何感知编码器-解码器网络示意图

本文所构建的几何感知编码器-解码器网络包含两个部分，分别是3D形态生成网络（生成功能）和抓取结果预测网络（预测功能）。其中，形态生成网络包含一个2D卷积形态编码器和一个3D反卷积形态解码器，再接上一个全局投影层；结果预测网络包含一个2D卷积状态编码器和一个带有额外局部形态投影层的全连接结果预测器。

实验

下图从直观层面和内在信息流两个角度简单介绍了3D形态预测的流程图。

△ 3D形态预测流程图

论文传送门：

https://arxiv.org/pdf/1708.07303.pdf

— 完 —

加入社群

量子位AI社群8群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot2入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot2，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

1

相关内容

几何感知

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

94+阅读 · 2020年6月19日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

专知会员服务

56+阅读 · 2020年3月23日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【论文】结构GANs，Structured GANs，

【论文】结构GANs，Structured GANs，

专知会员服务

15+阅读 · 2020年1月16日

【斯坦福&Google】面向机器人的机器学习，63页PPT

【斯坦福&Google】面向机器人的机器学习，63页PPT

专知会员服务

26+阅读 · 2019年11月19日

【CVPR 2019 | tutorial】通过图结构网络学习表示Learning Representations via Graph-structured Networks，圣地亚哥大学|Xiaolong Wang，英伟达|Sifei Liu

【CVPR 2019 | tutorial】通过图结构网络学习表示Learning Representations via Graph-structured Networks，圣地亚哥大学|Xiaolong Wang，英伟达|Sifei Liu

专知会员服务

19+阅读 · 2019年6月16日

【泡泡点云时空】基于分割方法的物体六维姿态估计

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

泡泡机器人SLAM

22+阅读 · 2019年9月7日

ICLR 2019 | 骑驴找马：利用深度强化学习模型定位新物体

ICLR 2019 | 骑驴找马：利用深度强化学习模型定位新物体

机器之心

4+阅读 · 2019年5月14日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

Grasp2Vec：通过自我监督式抓取学习物体表征

Grasp2Vec：通过自我监督式抓取学习物体表征

谷歌开发者

9+阅读 · 2019年1月2日

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

泡泡机器人SLAM

9+阅读 · 2018年10月16日

ECCV 2018 | 腾讯优图提出几何对抗损失函数在单视图3D物体重建中的应用

ECCV 2018 | 腾讯优图提出几何对抗损失函数在单视图3D物体重建中的应用

机器之心

4+阅读 · 2018年8月17日

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

泡泡机器人SLAM

7+阅读 · 2018年6月24日

学界 | UC Berkeley新研究：多视角图像3D模型重建技术

学界 | UC Berkeley新研究：多视角图像3D模型重建技术

机器之心

10+阅读 · 2017年9月10日

Monocular Plan View Networks for Autonomous Driving

Monocular Plan View Networks for Autonomous Driving

Arxiv

6+阅读 · 2019年5月16日

3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions

3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions

Arxiv

5+阅读 · 2019年5月16日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Stereo R-CNN based 3D Object Detection for Autonomous Driving

Stereo R-CNN based 3D Object Detection for Autonomous Driving

Arxiv

5+阅读 · 2019年2月26日

3D Face Modeling from Diverse Raw Scan Data

3D Face Modeling from Diverse Raw Scan Data

Arxiv

5+阅读 · 2019年2月13日

Occupancy Networks: Learning 3D Reconstruction in Function Space

Occupancy Networks: Learning 3D Reconstruction in Function Space

Arxiv

10+阅读 · 2018年12月10日

Joint Monocular 3D Vehicle Detection and Tracking

Joint Monocular 3D Vehicle Detection and Tracking

Arxiv

8+阅读 · 2018年12月2日

3D-LaneNet: end-to-end 3D multiple lane detection

3D-LaneNet: end-to-end 3D multiple lane detection

Arxiv

7+阅读 · 2018年11月26日

Structure Aware SLAM using Quadrics and Planes

Structure Aware SLAM using Quadrics and Planes

Arxiv

4+阅读 · 2018年8月13日

VIP会员

相关主题

相关VIP内容

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

94+阅读 · 2020年6月19日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

【CVPR2020-北京大学】FocalMix:用于3D医学图像检测的半监督学习

专知会员服务

56+阅读 · 2020年3月23日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【论文】结构GANs，Structured GANs，

【论文】结构GANs，Structured GANs，

专知会员服务

15+阅读 · 2020年1月16日

【斯坦福&Google】面向机器人的机器学习，63页PPT

【斯坦福&Google】面向机器人的机器学习，63页PPT

专知会员服务

26+阅读 · 2019年11月19日

【CVPR 2019 | tutorial】通过图结构网络学习表示Learning Representations via Graph-structured Networks，圣地亚哥大学|Xiaolong Wang，英伟达|Sifei Liu

【CVPR 2019 | tutorial】通过图结构网络学习表示Learning Representations via Graph-structured Networks，圣地亚哥大学|Xiaolong Wang，英伟达|Sifei Liu

专知会员服务

19+阅读 · 2019年6月16日

热门VIP内容

开通专知VIP会员享更多权益服务

中国人工智能应用发展报告（2025）

从Idea构想到论文发表：AI for Research全链路综述与实践

【ACL2025】通过知识偏好优化提升蛋白质生成的安全性与可控性

上下文工程到底是什么？一文起底

相关资讯

【泡泡点云时空】基于分割方法的物体六维姿态估计

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

泡泡机器人SLAM

22+阅读 · 2019年9月7日

ICLR 2019 | 骑驴找马：利用深度强化学习模型定位新物体

ICLR 2019 | 骑驴找马：利用深度强化学习模型定位新物体

机器之心

4+阅读 · 2019年5月14日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

Grasp2Vec：通过自我监督式抓取学习物体表征

Grasp2Vec：通过自我监督式抓取学习物体表征

谷歌开发者

9+阅读 · 2019年1月2日

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

【泡泡点云时空】3DMV:联合三维多视图预测的三维语义场景分割(ECCV2018-7)

泡泡机器人SLAM

9+阅读 · 2018年10月16日

ECCV 2018 | 腾讯优图提出几何对抗损失函数在单视图3D物体重建中的应用

ECCV 2018 | 腾讯优图提出几何对抗损失函数在单视图3D物体重建中的应用

机器之心

4+阅读 · 2018年8月17日

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

【泡泡图灵智库】GeoNet：基于无监督学习的深度、光流和相机位姿的联合估计

泡泡机器人SLAM

7+阅读 · 2018年6月24日

学界 | UC Berkeley新研究：多视角图像3D模型重建技术

学界 | UC Berkeley新研究：多视角图像3D模型重建技术

机器之心

10+阅读 · 2017年9月10日

相关论文

Monocular Plan View Networks for Autonomous Driving

Monocular Plan View Networks for Autonomous Driving

Arxiv

6+阅读 · 2019年5月16日

3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions

3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions

Arxiv

5+阅读 · 2019年5月16日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

3D Hand Shape and Pose Estimation from a Single RGB Image

3D Hand Shape and Pose Estimation from a Single RGB Image

Arxiv

17+阅读 · 2019年3月3日

Stereo R-CNN based 3D Object Detection for Autonomous Driving

Stereo R-CNN based 3D Object Detection for Autonomous Driving

Arxiv

5+阅读 · 2019年2月26日

3D Face Modeling from Diverse Raw Scan Data

3D Face Modeling from Diverse Raw Scan Data

Arxiv

5+阅读 · 2019年2月13日

Occupancy Networks: Learning 3D Reconstruction in Function Space

Occupancy Networks: Learning 3D Reconstruction in Function Space

Arxiv

10+阅读 · 2018年12月10日

Joint Monocular 3D Vehicle Detection and Tracking

Joint Monocular 3D Vehicle Detection and Tracking

Arxiv

8+阅读 · 2018年12月2日

3D-LaneNet: end-to-end 3D multiple lane detection

3D-LaneNet: end-to-end 3D multiple lane detection

Arxiv

7+阅读 · 2018年11月26日

Structure Aware SLAM using Quadrics and Planes

Structure Aware SLAM using Quadrics and Planes

Arxiv

4+阅读 · 2018年8月13日

大家都在搜

大型语言模型

生成式人工智能

软件无线电

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员