来源:程序媛小世界
https://zhuanlan.zhihu.com/p/38328177
CVPR2018 open access::
http://openaccess.thecvf.com/CVPR2018.py
First-Person Hand Action Benchmark With RGB-D Videos and 3D Hand Pose Annotations
“第一人称手动行动基准与RGB-D视频和3D手势姿势注释”
数据:RGB-D视频序列
45个日常手部类别,超过100K帧,
涉及几种手部中的26个不同物体
使用6D物体,3D手势识别
Depth-Based 3D Hand Pose Estimation: From Current Achievements to Future Goals
“基于深度的3D手势估计:从当前成果到未来目标”
任务:单帧3D姿态估计,3D手部追踪,对象交互过程中的手部姿态估计
实验:分析不同CNN结构在手形,联合可视性,视点和衔接分布方面的表现
结论:1)孤立的3D手姿态估计在[70,120]度的视点范围内实现了较低的平均误差(10mm),
但对于极端视角而言,这远远没有解决;
2)3D体积表现优于2D CNN,更好地捕捉深度数据的空间结构;
3)鉴别方法仍然难以推广到看不见的手形;
4)虽然联合遮挡对大多数方法提出了挑战,
但结构约束的显式建模可以显着缩小可见和闭塞关节上的误差之间的差距。
Dense 3D Regression for Hand Pose Estimation
“手姿势估计的密集3D回归”
思想:单个深度帧进行3D手势估计,用于密集像素估计
方法:1)分解姿态参数 = 2D热图 + 3D热图 + 单位3D方向矢量场
2)端对端训练(多任务网络级联进行估计) = 2D/3D联合热图 + 3D联合偏移
3) 像素方式的估计可以直接转化为投票方案。
4) 使用均值漂移的变体来汇总局部投票,
并明确地处理全局3D估计,
以逐像素方式进行2D和3D估计。
效果:MSRA和NYU hand数据集,ICVL hand数据集
Gesture Recognition: Focus on the Hands
“手势识别:专注于手”
创新:空间通道集中于手部,通道稀疏网络进行融合效果更好。
效果:ChaLearn IsoGD数据集的性能67.71%提高到82.07%,
NVIDIA数据集的性能从83.8%提高到91.28%。
Hand PointNet: 3D Hand Pose Estimation Using Point Sets
“手点网络:使用点集的3D手姿态估计”
输入:归一化的点云;
输出:精确地回归3D手部姿态的低维表示
创新点:不使用CNN,而是模拟手可见表面的三维点云以进行姿态回归
设计指尖细化网络,
直接将估计的指尖位置的相邻点作为输入来细化指尖位置。
Cross-Modal Deep Variational Hand Pose Estimation
“跨模态深变分手姿态估计”
方法:通过生成的深度神经网络来学习由跨模态训练的潜在空间表示的统计手模型。
创新:1)目标函数 = VAE框架的变分下界,跨模态KL散度,后向重建目标
多模态空间 = RGB图像,2D关键点检测,3D手形配置
2)半监督估计RGB图像的3D手势
3)不需要改变图像深度,效果良好可与论文比较
4)模型是完全生成的,可以在不同的模式下合成一致的手对配置
Augmented Skeleton Space Transfer for Depth-Based Hand Pose Estimation
“基于深度的手势估计的增强骨架空间转移”
思想:1)不使用深度图合成数据,使用骨架图合成数据;
2)使用骨架图生成深度图
3)生成对抗网络->手姿的手姿识别器(HPD)
4)手形成生成器(HPG)+ 3D手姿势估计器(HPE)配合训练
GANerated Hands for Real-Time 3D Hand Tracking From Monocular RGB
“GANerated Hands用于从单目RGB实时3D手部追踪”
贡献:解决单目RGB序列的实时3D手部跟踪
方法:1)卷积神经网络 + 运动学3D手模型
2)CNN:基于几何一致的图像到图像平移网络的合成生成训练数据的新方法
3)将合成图像转换为“真实”图像的神经网络,
使得如此生成的图像遵循与真实世界手图像相同的统计分布。
为了训练这个翻译网络,
我们将对抗性损失和循环一致性损失与几何一致性损失相结合,
以便在翻译过程中保留几何特性(例如手势)
Learning to Estimate 3D Human Pose and Shape From a Single Color Image
“学习从单色图像估计3D人体姿态和形状”
方法:1)端到端框架内引入参数化统计人体形状模型(SMPL)
->获得非常详细的三维网格结果,
->同时仅需要估计少量参数,
->使其对直接网络预测更为友好
2)从2D关键点和掩模才能可靠地预测这些参数
3)根据估计的参数生成3D网格,并使用3D每顶点损耗为曲面显式优化。
4)采用可微分渲染器将3D网格投影到图像上,
通过优化投影与2D注释(即2D关键点或掩模)的一致性,
可以进一步细化网络。
Recognizing Human Actions as the Evolution of Pose Estimation Maps
“将人为行为视为姿态估计图的演化”
思想:姿态估计图
= 热图的演变(概率图)+ 估计的2D人体姿态的演变(身体形状和身体姿势的变化)
热图:热图的稀疏性质
->开发了空间等级汇集以将热图的演变作为一个体形演化图像进行聚合。
姿态图:身体形态演化图像不能区分身体部位
->设计身体引导采样来将姿势的演变作为身体姿态演化图像进行聚合。
汇总:通过深度卷积神经网络来预测两种图像之间的互补特性以预测动作标签。
数据:NTU RGB + D,UTD-MHAD和PennAction数据集
Human Pose Estimation With Parsing Induced Learner
“解析诱导学习者的人体姿态估计”
方法:解析诱导学习器 = 解析编码器+姿态模型参数适配器
一起学习预测姿态模型的动态参数以提取互补的有用特征以用于更精确的姿态估计。
效能:基准LIP和扩展PASCAL-Person-Part
Monocular 3D Pose and Shape Estimation of Multiple People in Natural Scenes - The Importance of Multiple Scene Constraints
“自然场景中多人的单眼三维姿态和形状估计 - 多场景约束的重要性”
方法:1)推断2D和3D姿态,多个人的形状,
依靠模型和图像层面的详细语义表示,指导使用前馈和反馈组件进行组合优化
2)自动地整合场景约束,包括地平面支持和多人同时占用的体积
3)通过最优地解决时间人员分配问题并施加相干时间姿态和运动重建,
同时保持图像对准,将单个图像模型扩展为视频保真度。
效果:1)解决时间人员分配问题并施加相干时间姿态和运动重建,
同时保持图像对准保真度,将单个图像模型扩展到视频。
2)方法应用于具有多个人的图像,
严重的遮挡和在具有挑战性的自然场景中捕获的不同背景,
并获得良好的感知质量结果
Jointly Optimize Data Augmentation and Network Training: Adversarial Data Augmentation in Human Pose Estimation
“联合优化数据增强和网络训练:人体姿态估计中的敌对数据增强”
思想:随机数据增强避免训练深度模型过度拟合
方法:生成器(例如增强网络),
通过在线生成硬性示例来与竞争对手(如目标网络)竞争。
该生成器探索鉴别器的弱点,而鉴别器从硬增强学习以获得更好的性能。
奖励/惩罚策略也被提出用于有效的联合训练。
V2V-PoseNet: Voxel-to-Voxel Prediction Network for Accurate 3D Hand and Human Pose Estimation From a Single Depth Map
“V2V-PoseNet:用于从单一深度图准确估计3D手和人体姿态的体素 - 体素预测网络”
思想:采用2D深度图并直接对关键点(如手或人体关节)的3D坐标进行回归
传统:1)将深度图视为2D图像
2)缺点:通过从3D空间投影到2D空间来扭曲实际物体的形状。
这迫使网络执行透视失真不变估计
3)缺点:从2D图像直接回归3D坐标是非常非线性的映射,这在学习过程中造成困难。
方法:1)将3D手和人体姿势估计问题从单个深度图转换为使用3D体素化网格,
估计每个关键点的每体素可能性的体素 - 体素预测。
2)将模型设计为3D CNN,可在实时运行时提供准确的估计值。
PoseTrack: A Benchmark for Human Pose Estimation and Tracking
“PoseTrack:人体姿态估计和跟踪的基准”
传统:1)很难在具有多人的逼真视频上表现良好,
2)经常不能输出随着时间推移一致的身体姿态轨迹。
方法:1)单帧多人姿态估计,
2)视频中的多人姿态估计,
3)多人连接跟踪。
Cascaded Pyramid Network for Multi-Person Pose Estimation
“级联金字塔网络用于多人姿态估计”
问题:闭塞的关键点,不可见的关键点和复杂的背景
阶段:1)GlobalNet是一个功能金字塔网络,
可以成功定位眼睛和手等“简单”关键点,
但可能无法精确识别被遮挡或不可见的关键点。
2)RefineNettries通过整合来自Global-Net的所有级别的特征
表示以及在线硬关键点采矿损失来明确处理“硬”关键点。
方法:为了解决多人姿势估计问题,
采用自顶向下的管线首先基于检测器生成一组人类边界框,
然后用CPN在每个人体边界框中进行关键点定位。
效果:COCO 60.5->73.0/72.1
Ordinal Depth Supervision for 3D Human Pose Estimation
“三维人体姿态估计的序贯深度监督"
创新:1)人体关节序数深度提供的较弱监督信号
2)流行的深度标注来扩充流行的LSP和MPII数据集
Through-Wall Human Pose Estimation Using Radio Signals
“使用无线电信号的穿墙人体姿态估计”
场景:通过墙壁和遮挡进行精确的人体姿态估计。
利用WiFi频率中的无线信号穿越墙壁并反射人体的事实。
思想:深度神经网络方法来分析这种无线电信号以估计2D姿势
创新:跨模态监督
1)训练:同步的无线和视觉输入,从视频流中提取姿势信息
2)训练完成:网络仅使用无线信号进行姿态估计
视频:http://rfpose.csail.mit.edu
.
Learning Monocular 3D Human Pose Estimation From Multi-View Images
“从多视图图像学习单眼3D人体姿态估计”
方法:1)多个视图来替换大多数注释,训练系统预测所有视图中的相同姿势。
2)监督损失预测一小组标记图像中的正确姿势,
并用正则化术语来惩罚初始预测中的偏移。
3)提出了一种与人体姿势一起估计相机姿态的方法,
该方法可让我们利用多视图素材难以校准的情况,
例如,用于平移或移动手持相机。
效果:带有旋转摄像头和专业滑雪运动的全新Ski数据集
Detect-and-Track: Efficient Pose Estimation in Videos
“检测和跟踪:视频中的高效姿态估计”
Feature Mapping for Learning Fast and Accurate 3D Pose Inference From Synthetic Images
“用于学习的特征映射从合成图像学习快速且准确的3D姿势推断”
DensePose: Dense Human Pose Estimation in the Wild
”密集人体:野外人体姿势估计“
3D Human Pose Estimation in the Wild by Adversarial Learning
“对抗性学习在野外的人体姿态估计”
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
“野外物体的三维姿态估计与三维模型检索”
RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews From Unsupervised Viewpoints
“RotationNet:使用来自无监督视点的多视图的联合对象分类和姿态估计”
2D/3D Pose Estimation and Action Recognition Using Multitask Deep Learning
“使用多任务深度学习的2D / 3D姿态估计和动作识别”
Learning Pose Specific Representations by Predicting Different Views
“通过预测不同视角来学习姿势的具体表现”
Real-Time Seamless Single Shot 6D Object Pose Prediction
“实时无缝单射6D对象姿态预测”
Multi-View Consistency as Supervisory Signal for Learning Shape and Pose Prediction
“多视图一致性作为学习形状和姿态预测的监督信号”
Multistage Adversarial Losses for Pose-Based Human Image Synthesis
“基于姿态的人体图像合成的多级对抗损失”
Synthesizing Images of Humans in Unseen Poses
“在看不见的姿势中合成人类的图像”
Unsupervised Person Image Synthesis in Arbitrary Poses
“任意姿势下的无监督人体图像合成”
End-to-End Recovery of Human Shape and Pose
“人体形态和姿势的端对端恢复”
Deformable GANs for Pose-Based Human Image Generation
“用于基于姿势的人类图像生成的可变形GAN”
GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose
“GeoNet:密集深度的无监督学习,光流和相机姿势”
Hybrid Camera Pose Estimation
“混合相机姿势估计”
Camera Pose Estimation With Unknown Principal Point
“带有未知主要点的相机姿态估计”
Super-FAN: Integrated Facial Landmark Localization and Super-Resolution of Real-World Low Resolution Faces in Arbitrary Poses With GANs
“Super-FAN:集成的人脸地标定位和任意姿势下的真实世界低分辨率人脸的超分辨率”
Disentangling 3D Pose in a Dendritic CNN for Unconstrained 2D Face Alignment
“在无限制2D面对准的树突状CNN中解构三维姿态”
Joint Pose and Expression Modeling for Facial Expression Recognition
“面部表情识别的联合姿态和表情建模”
Towards Pose Invariant Face Recognition in the Wild
“面向野外姿态不变的人脸识别”
Pose-Robust Face Recognition via Deep Residual Equivariant Mapping
“基于深度残差等变映射的姿态鲁棒人脸识别”
UV-GAN: Adversarial Facial UV Map Completion for Pose-Invariant Face Recognition
“UV-GAN:用于姿态不变脸部识别的对抗面部UV映射完成”
Pose-Guided Photorealistic Face Rotation
“姿势指导真实感脸部旋转”
Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies
“全部捕获:用于追踪面部,手部和身体的3D变形模型”
Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
“通过姿态引导知识转移进行弱监督和半监督人体部位解析”
A Certifiably Globally Optimal Solution to the Non-Minimal Relative Pose Problem
“非最小相对姿态问题的一个可证明的全局最优解”
Fight Ill-Posedness With Ill-Posedness: Single-Shot Variational Depth Super-Resolution From Shading
“以不适当的姿态应对不适应:来自阴影的单发变分深度超分辨率”
Factoring Shape, Pose, and Layout From the 2D Image of a 3D Scene
“从3D场景的2D图像中分解形状,姿态和布局”
A Pose-Sensitive Embedding for Person Re-Identification With Expanded Cross Neighborhood Re-Ranking
“扩展交叉邻居重新排序的人员重新识别的姿态敏感嵌入“
Improving Occlusion and Hard Negative Handling for Single-Stage Pedestrian Detectors
”改善单级行人检测器的遮挡和硬性负面处理“
End-to-End Learning of Keypoint Detector and Descriptor for Pose Invariant 3D Matching
”针对姿态不变三维匹配的关键点检测器和描述符的端到端学习“
Non-Blind Deblurring: Handling Kernel Uncertainty With CNNs
“非盲去模糊:用CNN处理内核不确定性”
Pose Transferrable Person Re-Identification
“姿态可移动的人员重新识别”
LSTM Pose Machines
“LSTM姿势机器”
MX-LSTM: Mixing Tracklets and Vislets to Jointly Forecast Trajectories and Head Poses
“MX-LSTM:混合Tracklets和Vislets来共同预测轨迹和头部姿势”
PoseFlow: A Deep Motion Representation for Understanding Human Behaviors in Videos
”PoseFlow:用于理解视频中人类行为的深层运动表示“
PoTion: Pose MoTion Representation for Action Recognition
”主题:构成动作识别的MoTion表示“
Analysis of Hand Segmentation in the Wild
”野生动物手部分割分析“
PS.极市平台诚招计算机视觉算法工程师啦~工作要求请关注“极市平台”公众号(id:extrememart),点击菜单加入极市“诚招”栏或直接私信小助手(微信:Extreme-Vision),欢迎大牛来戳~