会员服务 ·

CVPR 2022｜群核前沿院等提出首个基于数据驱动的面检测算法

2022 年 3 月 15 日 极市平台

↑ 点击蓝字关注极市平台

作者丨叫我佳老师@知乎（已授权）

来源丨https://www.zhihu.com/question/517340666/answer/2374684918

编辑丨极市平台

极市导读

本文从数据驱动的角度重新审视从线框图中检测面这一经典问题，将其建模为序列生成问题：从任意一条开始，采用流行的基于Transformer的模型，以自然顺序预测属于同一个面的其他边。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

项目链接：https://manycore-research.github.io/faceformer/

论文链接：https://arxiv.org/abs/2203.04229

代码链接：https://github.com/manycore-research/faceformer

肝完了ECCV 2022，来介绍一下我们刚被CVPR 2022接受的基于单张线框图的三维重建论文。

太长不看（TL;DR）

我们提出了首个基于数据驱动的面检测算法；我们基于面检测结果提出了一个简易的三维重建解决方案。

前言

面检测是计算机视觉/图形学中的一个基本问题。传统方法基于复杂的几何搜索与推断，很不直观。然而，人眼可以迅速地从图片中找出此类几何元素，因此我们猜想：人脑的判定方式是基于历史观测数据。因此提出通过数据驱动的方法，训练神经网络在进行此类检测。

基于自回归模型的面检测

面检测就是从输入的单张线框图（矢量图）中找到真实三维面所对应边的集合，如下图所示。

边界表达（B-Rep）是CAD中标准模型表达的方式，我们的方法借鉴了其中共边（co-edge）这一个属性：

每个边（edge）对应了两个共边（co-edge），且两个共边方向相反；
每条边（edge）严格被两个面（face）共享，这条边的两个共边分别对应了这两个面；
共边（co-edge）方向定义：沿环的方向看，（假设面的方向朝上）面总在边的左侧。

借助共边, 面就可以方便被表达为共边的环 (co-edge loops) , 如上图所示, 三个标记的面的共边的集合分贝是和。

随后，我们设计了一种基于Transformer的自回归模型，从每条共边出发，网络自动的寻找其所在的面。如下图所示，网络每次基于当前预测的共边集合，输出下一条边，当预测结束后，预测出对应面的类型。

这样做的好处是，我们的模型可以在共边这个维度上做到并行，加速网络的推断。我们惊讶的方法，基于自回归的方法能够达到93.8%的准确率和95.9%的精度（如果训练更久，达到99%也不在话下）。

三维重建

随后，我们基于面检测的结果设计了一个三维重建算法。大致的思想是利用面检测中得到的平面，三维重建提供了一组共面的约束。但是，只依赖面检测的结果是不够的，我们假设物体有三个相互垂直的主方向（曼哈顿假设），进一步约束面的朝向（具体算法参见论文吧，在此就不赘述了）。

再来看看我们三维重建的结果吧，与单纯基于图像的三维重建算法相比，我们的方法不仅重建地更好，而且还能保证拓扑的正确性。比较amazing的是最后一行的结果，相信小伙伴们单单通过输入图片也很难想象出这个三维物体的形状吧。

公众号后台回复“数据集”获取60+深度学习数据集下载～

△点击卡片关注极市平台，获取最新CV干货

极市干货

数据集资源汇总： 10个开源工业检测数据集汇总｜ 21个深度学习开源数据集分类汇总

算法trick ：目标检测比赛中的tricks集锦｜从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

技术综述：一文弄懂各种loss function ｜工业图像异常检测最新研究总结（2019-2020）

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

面检测算法

关注 0

CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归

专知会员服务

18+阅读 · 2022年4月18日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知会员服务

36+阅读 · 2022年4月2日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【NeurIPS2021】多模态虚拟点三维检测

专知会员服务

19+阅读 · 2021年11月16日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

【CVPR2021】面向视频动作分割的高效网络结构搜索

专知会员服务

14+阅读 · 2021年3月14日

【CVPR2021】坐标注意力的高效移动网络设计

专知会员服务

23+阅读 · 2021年3月9日

【CVPR2021】细粒度多标签分类

专知会员服务

61+阅读 · 2021年3月8日

中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》

专知会员服务

44+阅读 · 2020年12月4日

【NeurIPS 2020 】生成式的基于动态图网络学习的三维部件拼装

专知会员服务

16+阅读 · 2020年10月18日

CVPR'22 Oral｜目标检测的新工作开源！AdaMixer：基于快速收敛查询的目标检测器

极市平台

0+阅读 · 2022年4月6日

CVPR 2022｜快手联合中科院自动化所提出基于Transformer的图像风格化方法

极市平台

0+阅读 · 2022年4月5日

CVPR 2022 | GeoTransformer：基于Transformer的点云配准网络

PaperWeekly

2+阅读 · 2022年3月30日

CVPR 2022 | Point-BERT: 基于掩码建模的点云自注意力模型预训练

极市平台

0+阅读 · 2022年3月21日

CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练

CVer

2+阅读 · 2022年3月21日

CVPR 2022｜南开程明明团队和天大提出LD：目标检测的定位蒸馏

极市平台

1+阅读 · 2022年3月3日

最全综述：基于深度学习的三维重建算法

极市平台

13+阅读 · 2020年3月17日

CVPR2019 | 通过自适应的图卷积网络建模骨骼点数据进行行为识别

极市平台

101+阅读 · 2019年6月26日

CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

PaperWeekly

13+阅读 · 2019年1月22日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

基于多源衰减行波的煤矿电网故障定位方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于机电混合数据驱动的风力发电机故障诊断与预测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于血管关键点和旋转不变自相似特征的多模态眼底图像稳健配准研究

国家自然科学基金

2+阅读 · 2013年12月31日

数据驱动的滑坡灾害预测预报方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

数据驱动的复杂形体动态几何建模研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于能量变分导数的偏微分方程的时空自适应方法

国家自然科学基金

1+阅读 · 2012年12月31日

基于Clifford代数的模式识别算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于先验三维模型的车辆监控关键算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

Semi-Supervised Super-Resolution

Arxiv

1+阅读 · 2022年4月19日

Time Domain Adversarial Voice Conversion for ADD 2022

Arxiv

0+阅读 · 2022年4月19日

Caption Feature Space Regularization for Audio Captioning

Arxiv

0+阅读 · 2022年4月18日

3D-aware Image Synthesis via Learning Structural and Textural Representations

Arxiv

1+阅读 · 2022年4月18日

A Keypoint-based Global Association Network for Lane Detection

Arxiv

0+阅读 · 2022年4月15日

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Arxiv

14+阅读 · 2018年3月14日

VIP会员