Human Motion Prediction is a crucial task in computer vision and robotics. It has versatile application potentials such as in the area of human-robot interactions, human action tracking for airport security systems, autonomous car navigation, computer gaming to name a few. However, predicting human motion based on past actions is an extremely challenging task due to the difficulties in detecting spatial and temporal features correctly. To detect temporal features in human poses, we propose an Inception Residual Block(IRB), due to its inherent capability of processing multiple kernels to capture salient features. Here, we propose to use multiple 1-D Convolution Neural Network (CNN) with different kernel sizes and input sequence lengths and concatenate them to get proper embedding. As kernels strides over different receptive fields, they detect smaller and bigger salient features at multiple temporal scales. Our main contribution is to propose a residual connection between input and the output of the inception block to have a continuity between the previously observed pose and the next predicted pose. With this proposed architecture, it learns prior knowledge much better about human poses and we achieve much higher prediction accuracy as detailed in the paper. Subsequently, we further propose to feed the output of the inception residual block as an input to the Graph Convolution Neural Network (GCN) due to its better spatial feature learning capability. We perform a parametric analysis for better designing of our model and subsequently, we evaluate our approach on the Human 3.6M dataset and compare our short-term as well as long-term predictions with the state of the art papers, where our model outperforms most of the pose results, the detailed reasons of which have been elaborated in the paper.
翻译:人类运动预测是计算机视觉和机器人中的一项关键任务。 它具有多种应用潜力, 如人-机器人互动、机场安全系统人类行动跟踪、自主汽车导航、计算机游戏等。 然而, 预测过去行动的人动是一项极具挑战性的任务, 原因是难以正确检测空间和时间特征。 要探测人体表面的时间特征, 我们建议一个“ 感知残余屏障 ”, 因为它具有处理多种内核以捕捉突出特征的内在能力。 我们在这里建议使用多种1- 变动神经网络( CNN), 以不同的内核尺寸和输入序列长度为人行动跟踪, 并把它们拼凑起来, 以正确嵌入。 由于内核在不同的可容域上移动, 它们探测到多个时空尺度上的大小特征。 我们的主要贡献是建议输入和初始区块输出之间的剩余连接, 以保持先前观察到的外观和下一个预测的外观特征。 我们通过这个结构, 更深入地了解人类阵动神经网络( ) 的配置和我们更精确的模型,, 将更精确的模型的模型进行我们到后期预测, 的模型 将更精确的模型, 成为未来的图像的模型 的模型 的模型,, 我们的模型 的精确的模型, 我们的模型 的模型 的模型, 的模型, 以 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的