论文合集 | 3D human body reconstruction 方向论文阅读笔记整理

一写在前面

未经允许，不得转载，谢谢~~

最近方向从video recognition转到了3D human body reconstruction，所以刚刚开始看这方面的论文，就把简单的阅读笔记都整理在这里了~

文章应该会持续更新，大佬们见笑啦~~~

二论文阅读笔记

1. 3D Human pose estimation: A review of the literature and analysis of covariates

Computer Vision and Image Understanding 152(2016)1–20

1.1 整体情况

文章对给定RGB或者video的情况下对人体姿态估计的方法做了review;
根据输入的不同将他们划分为：
- single image or video;
- monocular or multi-vew;
我主要关注的是single image and monnocular的情况；

1.2 主要内容

文章关注的输入类型为RGB图像；
除了RGB，还有一类很流行的RGB-D输入，文章没有涉及，但是给出了一篇2013年的paper review;
文章整理了2008-2015年间的single-view方法；
姿态估计的大概流程：
- prior body model决定了方法是model-based还是model-free的；
- 利用2D pose information既可以用来作为额外的信息，又可以作为3D model 映射回2D时(projection)的参考。
- 例如一些预处理技术，例如抽离背景部分；
- 对特征进行提取，然后输入2D pose estimation中进行评估；
- 获取初始3D pose,然后用优化算法来评估3D姿态；
- 对姿态进行一些constrain，丢弃一些不可能出现的姿态，最终得到估测好的3D pose;
文章根据模型方法的不同，又进行了以下分类：
- generative model(model-based,top-down)
  1. 利用先验知识进行建模，分成建模(model)和评估(estimation) 2个阶段，会用上很多人体结构之类的信息；
  2. 在生成模型中有一类被称为part-based(bottom-up)方法，由body part的集合来表示human skeleton;
  3. 文章给出了几篇比较有名的论文：PSM, Deformable structures model, graphical model(SP);
- discriminative model(model-free)
  1. 不需要假定特定的模型，直接学习从image到3D human body之间的映射关系；
  2. 这一类方法又可以进一步分为：learning-based和example-based;
  3. learning-based方法直接学习映射关系；
  4. example-based方法存储一系列exemplars以及对应的pose descriptors，最终测试的时候直接通过相似度检索得到几个candidates然后进行插值；
- hybrid approaches
  1. 生成模型能够更加准确的推断出pose，具有更好的鲁棒性；
  2. 判别模型能够更加快速的训练，需要表示的信息更加低维；
  3. hybrid approaches能够结合生成模型和判别模型，从生成模型的可能性结果来验证判别模型中的姿态估计。
human body model and representation
- human body 有很多的joints和limbs，因此分析起来很复杂；
- model-based方法采用先验知识对human body进行建模；
- 以前用的最常见的一种方法是将skeleton结合structure和shape, 其中skeleton共15个joints，然后链接起来，右边是树状结构；
- 不管是否用了body mode(model-based还是model-free)，下一步都是特征提取；
- 传统的特征提取方法会剔除背景后利用一些低维信息：edges, optical flow, silhouettes...
- 经典的特征提取算法文章中提到：SIFT, SC(shape content)，APC(appearance and context content ), HoG,posebits...
文章还列了一些从单张图像到3维人体估计的文章，但都是2016年以前的了。

2. End-to-end Recovery of Human Shape and Pose

CVPR 2018

2.1 整体情况

HMR(human mesh recovery)：端到端的人体姿态和形态的对抗学习网络；
实现了从single RGB image到full 3D mesh of human body的学习；
HMR不需要成对的2D-to-3D监督信息，不需要借助中间的2D keypoint deection，而是直接从pixel到mesh；
给定人的bounding box的情况下，可以做到实时。
先来看一下整体实验结果：
- 上面两行是用2D-3D监督信息训练的，下面一行是用完全弱监督的方式训练的，没有2D-3D的监督信息；

2.2 主要内容

2.2.1 background

现有方法大多数利用joint信息，但joint的位置比较稀疏，不能判断完整状态，本文用了更多的keypoints;
现有方法大多数是multi-stage的，从estimate 2D joint locations再到estimate 3D model parameters;
本文是直接从image pixel to 3D model;
但是这样会有几个挑战：
- lack of large-scale ground-truth 3D-annoation for in-the-wild image;
  (现在有准确3D注释的都是受环境限制的)
- inherent ambiguities in single-view 2D-to-3D mapping;
  (从2D重建回3D本身具有模糊性)
keypoint(本文需要有以下数据集)：
- large-scale 2D keypoint annotations of in-the-wild dataset;
- a separate large-scale dataset of 3D mesh of people with many poses
- (这两个是独立的数据集，unpaired)

所以本文的key contribution：将两个unpaired的数据集，用对抗学习的方式利用起来；

2.2.2 overview of the proposed network

encoder: 用来提取图像特征；
regression：可迭代3D回归用来获取3D mesh的参数以及相机参数；
得到3D mesh的pose,shape,camera信息后又分成上下两个部分：
- 下面：进入判别器D，与大规模3D human body数据集进行比较，判断生成的human body是否真实。
  （弱监督方式，使得跟wild dataset相比更合理）
- 上面：将得到的3D mesh映射回2D，得到keypoints, 然后与原来image的ground-truth keypoints进行比较，得到一个loss。
  （强监督方式，使得跟输入image的manifold更接近）

本文还对只有弱监督方式的情况进行了实验，效果也不错。

最后文章还考虑了文章本身带有ground truth 3D information的情况，最终的整体目标函数:
- λ:超参数
- reproj：上面那路
- adv：下面那路
- 3D：有3D ground-truth的情况

2.2.3 related work

two-stage estimation
- 首先获取到2D joint locations(直接有标注或者用2D pose detector预测得到)
- 然后预测3D joint locations(regression或者model fitting)，常用的是探索learned dictionary of 3D skeletons；
- 这个过程可能limb length是主导，也可能limb propotion，pose, angle是主导；
- two-stage的方法更加鲁棒，但是太依赖2D joints信息，且可能丢失很多图像信息；
direct estimation
- 出现了一些带有3D joint locations的数据集：HumanEva，Human3.6M，使得直接学习有了强监督label；
- 大多数都是用FCN来做的；
- 很多都没有解决camera，只是估计深度，用平均长度来定义全局的scale；
- 这类方法的问题是虽然有准确的3D annotation，但是不能适用于真实世界；

3. DensePose: Dense Human Pose Estimation In The Wild

CVPR2018

3.1 整体情况

DensePose：实现了从simgle RGB image 到 surface-based representation of human body；
DensePose-COCO：为COCO数据集中的50K perpon进行数据标注，形成新的数据集；
在DensePose-COCO数据集上用基于CNN的模型进行训练和测试，尝试了fully-conv networks 和region-based models两种方式，后者效果更好；
整体实验结果：

3.2 主要内容

3.2.1 background

大多数时候建立从image到surface-based model都需要用到深度信息（RGB-D），但本文只使用了RGB图像；
本文将重点放在human body身上，而且还支持dense场景；
本文采用完全的监督学习，为此收集images以及对应human body的详细准确的ground-truth信息；
不像其他论文一样在测试阶段使用SMPL，而是直接在训练时候作为一种定义问题的方式；
本文方法与mask-rcnn方法结合可以从复杂场景（10多个人）中有效计算出有效的区域；

3.2.2 Dense-Pose dataset

是一个large scale dataset for human pose estimation;
ground-truth for 50K humans in COCO, more than 5 million manully annoated pairs;
数据集（image----> surface-based representations of human body）
- 先将身体分成几个语义分明的部分：head，torso, lower/upper arms...
- 获得24个UV field(如上图右边部分所示)（每个部分的获取使用了不同的方法，例如SMPL, multi-scale等）
- 对各个部分运行k-means算法，得到各个部分的特征点；
- 然后将对应的点标注到渲染出来的part iamge上面；
- 然后利用渲染出来的坐标，又重新将这些2D特征点定位到3D model上面；
每个body surface都有24个part，每个part包含的标记点最多为14个；

3.2.3 model

基于DensePose-RCNN model，实现一个全监督学习模型；

本文基于DenseReg + mask-RCNN ----> DensePose-RCNN, 又在此基础上增加了级联结构。

尝试了以下两种结构：

1. fully-connected dense pose regression

由于人体比较复杂，所以将其分为几个独立的part，每个part用二维坐标表示；
基于这样的表示，用classification+regression这2个任务，用fully-connected network来做；
- classification：判断a pixel是属于背景还是属于surface part中的一个；
- regression: 预测出这个pixel相对于所在part的准确坐标位置；
分类阶段总共有25个类别（24 parts + 1 background），用交叉熵损失；
然后再为24个surface part分别训练回归器，用L1 loss衡量；

2. region-based dense pose regression

以上基于FCN的任务比较简单，但是需要完成太多的子任务；
本文又采用region-based的方法：

先用mask-rnn得到ROI区域；
再进行一次ROI区域Align；
3.然后用FCN提取图像特征；
提取到的特征同样分为上下两个方面：一个用于分类出所属的surface part，一个用于产生对应的坐标值，可以用跟fully-conv中一样的方法进行优化，但是这里多了一个前面的proposal监督信息。

3.2.4 multi-task cascaded architectures

增加了keypoint-estimation和instance segmentation两个任务；
然后用多个任务做了一个结构上的级联：

4. Unite the People: Closing the Loop Between 3D and 2D Human Representations

CVPR2017

4.1 整体情况

本文扩展了SMPLify方法，提出了实用多个人体姿态数据的3D body model；
产生了UP-3D数据集，可以用来训练discriminative模型，在没有gender或者pose的先验条件下也能有较好的结果。

4.2 主要内容

4.2.1 introduction

现有用来做bounding-box detection，keypoint detection，body part segmentation的learning-based方法以及各自使用的数据集都是独立分开的。
所以本文就想overcome这些separation，然后unit the people in different datasets and multiple tasks.即希望将多个数据集和任务连接起来。

最后编辑于：2019.02.01 16:04:23

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,373评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,732评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,163评论 0赞 238
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,700评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,036评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,425评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,737评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,421评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,141评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,398评论 2赞 243
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,908评论 1赞 257
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,276评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,907评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,018评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,772评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,448评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,325评论 2赞 261