Classifying the behavior of humans or animals from videos is important in biomedical fields for understanding brain function and response to stimuli. Action recognition, classifying activities performed by one or more subjects in a trimmed video, forms the basis of many of these techniques. Deep learning models for human action recognition have progressed significantly over the last decade. Recently, there is an increased interest in research that incorporates deep learning-based action recognition for animal behavior classification. However, human action recognition methods are more developed. This survey presents an overview of human action recognition and pose estimation methods that are based on convolutional neural network (CNN) architectures and have been adapted for animal behavior classification in neuroscience. Pose estimation, estimating joint positions from an image frame, is included because it is often applied before classifying animal behavior. First, we provide foundational information on algorithms that learn spatiotemporal features through 2D, two-stream, and 3D CNNs. We explore motivating factors that determine optimizers, loss functions and training procedures, and compare their performance on benchmark datasets. Next, we review animal behavior frameworks that use or build upon these methods, organized by the level of supervision they require. Our discussion is uniquely focused on the technical evolution of the underlying CNN models and their architectural adaptations (which we illustrate), rather than their usability in a neuroscience lab. We conclude by discussing open research problems, and possible research directions. Our survey is designed to be a resource for researchers developing fully unsupervised animal behavior classification systems of which there are only a few examples in the literature.
翻译:将人类或动物的行为从视频中分类在生物医学领域对于理解大脑功能和对刺激性的反应非常重要。 行动识别,将一个或一个以上主体在剪剪的视频中开展的活动分类,构成了许多这些技术的基础。 人类行动的深刻学习模式在过去十年中取得了显著进步。 最近,人们更加关注包含深层次基于学习的行动识别动物行为分类的研究。 然而,人类行动识别方法更为发达。 本次调查概述了人类行动识别,并提出了基于神经神经网络结构的人类行动识别和估算方法,并适应了神经科学中的动物行为分类。 包含行动估计,从图像框架中估算联合位置,因为通常在动物行为分类之前应用。 首先,我们提供了基础信息,说明通过2D、2流和3D CNN 等方法学习神经特征的深度。 我们探索了确定人类行为优化、损失功能和培训程序的因素,并比较了它们在基准数据集上的绩效。 其次,我们审查使用或建立这些方法分类的动物行为框架,从一个图像框框框框框中估算联合位置, 因为它通常用于对动物行为进行分类研究, 而我们则通过对研究的系统进行精确的排序, 。 我们通过研究, 将研究 将研究 将研究 将研究 将研究的 将研究 将研究的 的 将 将 的 将 我们的 的 转向 将 将 的 的 的 的 的 用于 的 的 的 用于 的 的 的 的 的 的 用于 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 转向的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的