【Facebook ICCV17入选】15篇论文，何凯明3篇，LeCun1篇

2017 年 10 月 21 日 新智元

【AI WORLD 2017世界人工智能大会倒计时 18 天】

“AI达摩”齐聚世界人工智能大会，AI WORLD 2017议程嘉宾重磅发布

大会早鸟票已经售罄，现正式进入全额票阶段。还记得去年一票难求的AI WORLD 2016盛况吗？今年，即将于2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上，我们请到腾讯优图实验室杰出科学家贾佳亚教授、旷视科技（Face++)首席科学家孙剑等中国计算机视觉的领军人物。想了解计算机视觉的最新动态， 点击文末阅读原文，马上参会！

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大会官网：http://www.aiworld2017.com

新智元编译

来源：research.fb.com

编译：弗格森

【新智元导读】 Facebook公布了今年入选计算机视觉顶级会议ICCV的15篇研究成果。涉及语义和图像分割、物体识别、图像分类、视觉与语言的结合、图像生成、3D视觉等多个方面。

来自世界各地的计算机视觉专家将于本周聚集在于威尼斯举行的国际计算机视觉会议（ICCV），介绍计算机视觉和相关领域的最新进展。来自Facebook的研究将在15篇经过同行评审的出版物和海报中发表。 Facebook研究人员还将出席众多的研讨会和讲座。

以下是 Facebook 在本年度的 ICCV 上呈现的研究完整列表，根据研究主题进行了整理:

词义和图像分割

论文：Mask R-CNN

作者：Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick

论文地址：https://research.fb.com/publications/mask-r-cnn/

这篇论文开发了一种新的系统，对于照片中的每个像素，它可以预测像素会对哪些物体作出反应，也可以预测像素会对哪一个物体作出反应。所以系统不仅会描绘羊，然后告诉你它们是羊（“语义”分割），但它也会告诉你哪些部分的图像对应于哪只羊（“实例”分割）。Mask R-CNN是成功完成此项工作的系统之一。 Facebook的 CTO Mike Schroepfer在今年早些时候在F8的主题演讲中展示了Mask R-CNN的Demo。

论文：Predicting Deeper into the Future of Semantic Segmentation

作者：Pauline Luc, Natalia Neverova, Camille Couprie, Jakob Verbeek, Yann LeCun

论文地址：https://research.fb.com/publications/predicting-deeper-into-the-future-of-semantic-segmentation/

本文开发了一种深度学习模型，从一个视频中的特定帧（静态）尝试预测下一帧将是什么样子。所以在某种意义上，它是试图猜测视频接下来会展示什么内容的。本文表明，研究最后所得到的模型可用于提高计算机视觉系统在语义分割等任务中的质量。

论文：Segmentation-Aware Convolutional Networks Using Local Attention Masks

作者：Adam W. Harley, Konstantinos G. Derpanis, Iasonas Kokkinos

论文地址：https://research.fb.com/publications/segmentation-aware-convolutional-networks-using-local-attention-masks/

在深度神经网络中，网络的层次越深，一个卷积网络中的众多神经元对图像进行“审查”的部分就越大。这可能会导致局部性（localized）变差以及模糊的反应，因为，神经元需要对图像非常大的部分进行“审查”。在这项研究中，我们通过每一个神经元只出现在自己感兴趣的区域，进而锐化这种反应。

论文：Dense and Low-Rank Gaussian CRFs Using Deep Embeddings

作者：Siddhartha Chandra, Nicolas Usunier, Iasonas Kokkinos

论文地址：https://research.fb.com/publications/dense-and-low-rank-gaussian-crfs-using-deep-embeddings/

虽然卷积网络可以非常准确地将图像中的像素分类为不同的类别（汽车，飞机，...），但相邻的决策通常不一致：一半物体可能被标记为“床”，另一半则被标记为“沙发”。本文提出了一种耦合所有像素分类的技术，以非常有效的方式产生一致的预测。

物体检测

论文：Focal Loss for Dense Object Detection

作者：Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár

论文地址：https://research.fb.com/publications/focal-loss-for-dense-object-detection/

本文提出了一种新的物体检测系统。该系统在技术上与现有的目标检测技术不同。当下，大多数系统由多个“阶段”组成，每个阶段都由不同的模型实现，本文开发了一个在单个阶段解决整个对象检测问题的模型。这种简单性很有吸引力，因为它使得系统更容易实现和使用。

论文：Low-shot Visual Recognition by Shrinking and Hallucinating Features

作者：Bharath Hariharan, Ross Girshick

论文地址：https://research.fb.com/publications/low-shot-visual-recognition-by-shrinking-and-hallucinating-features/

物体检测系统通常是基于成千上万的图像进行训练，这些图像中包含了它们需要识别出来的物体。本文着重于解决在仅看到该类别的很少示例之后识别新的对象类型的问题。它通过“设想”我们想要识别的物体的额外例子来实现。

论文：Transitive Invariance for Self-supervised Visual Representation Learning

作者：Xiaolong Wang, Kaiming He, Abhinav Gupta

论文地址：https://research.fb.com/publications/transitive-invariance-for-self-supervised-visual-representation-learning/

本文提出通过观察对象在视频中的外观变化来学习更好的对象检测模型。例如，驾驶的车辆的视频会显示来自不同帧的不同角度的汽车。因为你知道每个框架其实都描述了同一辆车，所以你可以使用这些信息来学习更好地理解同一个物体的不同视角的模型。所得到的模型可用于改进对象检测器。

图像分类

论文：Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

作者：Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra

论文地址：https://research.fb.com/publications/grad-cam-visual-explanations-from-deep-networks-via-gradient-based-localization/

大多数现代图像分类系统都基于称为卷积网络的模型。这些网络工作得很好，但它们也是一个“黑匣子”的问题。本文开发了一种新技术，可以通过可视化照片中的哪些区域让系统以特定的方式对其进行分类，从而“打开盒子”。

论文：Learning Visual N-Grams from Web Data

作者：Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten

论文地址：https://research.fb.com/publications/learning-visual-n-grams-from-web-data/

大多数图像识别系统都是通过手动注释的大型图像集合进行训练。此注释过程繁琐而且不能扩展。本文开发了一种图像识别系统，该系统接受了5000万张照片和用户评论的训练，无需手动注释。该系统可以识别跨越多个单词的对象，地标和场景，例如“金门大桥”或“自由女神像”。

视觉与语言的结合

论文：Inferring and Executing Programs for Visual Reasoning

作者：Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick

论文地址：https://research.fb.com/publications/inferring-and-executing-programs-for-visual-reasoning/

本论文研究的是视觉推理问题：根据一个图像，它的目的是回答诸如“蓝盒前面的东西的形状是什么”的问题。它通过使用将问题转换为简单的计算机程序的“模块网络”来实现，并且使用神经网络来实现该程序中的每个指令。本文还发布了一个新的视觉推理数据集，称为CLEVR-Human。

论文：Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning

作者：Abhishek Das, Satwik Kottur, Jos. M. F. Moura, Stefan Lee, Dhruv Batra

论文地址：https://research.fb.com/publications/learning-cooperative-visual-dialog-agents-with-deep-reinforcement-learning/

本文开发了一个chatbot来回答关于图像的问题。例如，你可以问这个chatbot：“那个女人的伞的颜色是什么？”。如果图像中有两个女人，chabot会问：“哪个女人？”你回答：“黑头发的人”，chatbot会告诉你：“伞是蓝色的”。我们还没有真正解决这个问题，但这是试图解决这个问题的首批论文之一。

论文：Learning to Reason: End-to-End Module Networks for Visual Question Answering

作者：Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko

论文地址：https://research.fb.com/publications/learning-to-reason-end-to-end-module-networks-for-visual-question-answering/

本文介绍了一种用于回答诸如“紫色圆柱体左边的球的颜色是什么”的新技术。该技术通过将问题转换为小型计算机程序来实现。然后，程序中的每个指令由神经网络执行。程序“生成器”和程序“执行器”都是从图像和问题的配对中学习的。

论文：Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training

作者：Rakshith Shetty, Marcus Rohrbach, Lisa Anne Hendricks, Mario Fritz, Bernt Schiele

论文地址：https://research.fb.com/publications/speaking-the-same-language-matching-machine-to-human-captions-by-adversarial-training/

本文涉及自动生成标题的问题，即图像的自然语言描述。主要的技术创新是，它试图使系统产生的字幕看起来更像是人类制作的字幕。

图像生成

论文：Unsupervised Creation of Parameterized Avatars

作者：Lior Wolf, Yaniv Taigman, Adam Polyak

论文地址：https://research.fb.com/publications/generative-collaborative-networks-for-cross-domain-configuration-extraction/

本文开发了一个新的系统，根据你的脸部的常规照片，生成一个像你一样的头像。主要技术创新是系统以“无监督”的方式进行培训。这意味着它没有配对的脸部图像和相应的头像进行训练：它看到的是一堆脸和一堆头像。系统学习自动找出哪些头像对应于哪个脸。

3D 视觉

论文：Deltille Grids for Geometric Camera Calibration

作者：Hyowon Ha, Michal Perdoch, Hatem Alismail, In So Kweon, Yaser Sheikh

论文地址：https://research.fb.com/publications/deltille-grids-for-geometric-camera-calibration/

物体的三维模型被用于虚拟现实等应用中。这些模型是通过从“天顶”的角度拍摄物体制作，而不是用数百台相机同时进行拍摄。这些相机需要进行校准，使得将所有图像组合成对象的3D模型的系统准确地知道相机所在的位置。几十年来，这种校准是通过拍摄标准checkerboard来完成的。本论文表明，通过使用带有三角形场的checkerboard，可以更精确地校准摄像机。

ICCV 2017上Facebook的其他活动

Instance-Level Visual Recognition Tutorial
Talks by Georgia Gkioxari, Kaiming He, and Ross Girshick

Closing the Loop between Vision and Language Workshop
Larry Zitnick, Opening keynote
Dhruv Batra, Invited talk

Generative Adversarial Networks Tutorial
Soumith Chintala presents his GANs-in-the-wild paper

Role of Simulation in Computer Vision workshop
Devi Parikh, Invited talk

Workshop on Web-Scale Vision and Social Media
Ang Li, Invited talk on his Facebook internship project

Workshop on Computer Vision for Virtual Reality
Organized by Frank Dellaert and Richard Newcombe

COCO + Places Workshop
Team FAIR presents its competition submission

PoseTrack Challenge Workshop
Yaser Sheikh, Invited talk
Georgia Gkioxari, Rohit Girdhar, Du Tran, Lorenzo Torresani and Deva Ramanan present their challenge submission

【AI WORLD 2017世界人工智能大会倒计时 18 天】点击图片查看嘉宾与日程。

大会门票销售火热，抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

【扫一扫或点击阅读原文抢购大会门票】

AI WORLD 2017 世界人工智能大会购票二维码：

登录查看更多

相关内容

ICCV

关注 598

ICCV 的全称是 IEEE International Conference on Computer Vision，即国际计算机视觉大会，由IEEE主办，与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议，被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议，在业内具有极高的评价。不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV，ICCV在世界范围内每两年召开一次。ICCV论文录用率非常低，是三大会议中公认级别最高的。ICCV会议时间通常在四到五天，相关领域的专家将会展示最新的研究成果。

【快讯】ECCV 2020论文出炉，1361篇上榜，你的paper中了吗？

专知会员服务

57+阅读 · 2020年7月3日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

近期必读的5篇顶会CVPR 2020【场景图+图神经网络（SG+GNN）】相关论文

专知会员服务

51+阅读 · 2020年5月12日

【Facebook AI】低资源机器翻译，74页ppt

专知会员服务

30+阅读 · 2020年4月8日