It is a common practice to think of a video as a sequence of images (frames), and re-use deep neural network models that are trained only on images for similar analytics tasks on videos. In this paper, we show that this leap of faith that deep learning models that work well on images will also work well on videos is actually flawed. We show that even when a video camera is viewing a scene that is not changing in any human-perceptible way, and we control for external factors like video compression and environment (lighting), the accuracy of video analytics application fluctuates noticeably. These fluctuations occur because successive frames produced by the video camera may look similar visually, but these frames are perceived quite differently by the video analytics applications. We observed that the root cause for these fluctuations is the dynamic camera parameter changes that a video camera automatically makes in order to capture and produce a visually pleasing video. The camera inadvertently acts as an unintentional adversary because these slight changes in the image pixel values in consecutive frames, as we show, have a noticeably adverse impact on the accuracy of insights from video analytics tasks that re-use image-trained deep learning models. To address this inadvertent adversarial effect from the camera, we explore the use of transfer learning techniques to improve learning in video analytics tasks through the transfer of knowledge from learning on image analytics tasks. In particular, we show that our newly trained Yolov5 model reduces fluctuation in object detection across frames, which leads to better tracking of objects(40% fewer mistakes in tracking). Our paper also provides new directions and techniques to mitigate the camera's adversarial effect on deep learning models used for video analytics applications.
翻译:通常的做法是将视频视为图像序列(框架), 并重新使用深神经网络模型, 这些模型仅对视频中类似的分析任务进行图像培训。 在本文中, 我们展示了在视频中效果良好的深层次学习模型也会对图像产生良好效果的这种信念的飞跃, 实际上是有缺陷的。 我们显示,即使视频相机以任何人类可感知的方式看到一个没有变化的场景, 我们也会控制视频压缩和环境( 亮光), 视频分析应用的准确性会明显波动。 这些波动之所以发生,是因为视频相机生成的相继框架可能看起来类似视频分析任务, 但视频分析应用程序对这些框架的看法却不同。 我们观察到, 这些波动的根源是动态相机参数的变化, 视频相机自动为拍摄和制作一个令人愉快的视频。 相机无意的对手行为, 因为这些图像缩略图像像素值在连续框架中的微小变化, 正如我们所显示的那样, 这些变化会明显地对从视频分析应用的精确性到图像分析应用过程的准确性产生负面影响, 。 在视频分析任务中, 我们从重新使用对图像技术进行深层次学习, 学习一个视频转换模型模型模型模型模型模型中, 学习模型模型模型模型中, 学习, 学习 学习 学习了我们使用 学习 学习 学习模型模型模型模型模型模型模型模型模型模型模型模型模型的转变模型的转变模型模型 学习 学习 学习模型模型 学习模型 学习模型 学习模型 学习模型 学习 学习 学习 学习 学习 学习 学习模型 学习模型 学习 学习 学习 学习 学习 学习模型 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 模型 学习 学习 学习 学习 学习 学习 学习 学习 学习 模型 模型 模型模型 模型 模型 模型 模型 学习 学习 学习 模型 模型 学习 学习 模型 模型 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 学习 的 学习