融合视频目标检测与单目标、多目标跟踪，港中文开源一体化视频感知平台 MMTracking

会员服务 ·

融合视频目标检测与单目标、多目标跟踪，港中文开源一体化视频感知平台 MMTracking

2021 年 1 月 7 日 机器之心

机器之心报道

编辑：魔王

香港中文大学多媒体实验室（MMLab）OpenMMLab 开源一体化视频目标感知平台 MMTracking。

新年伊始，香港中文大学多媒体实验室（MMLab）OpenMMLab 又有新动作，发布了一款一体化视频目标感知平台 MMTracking。该框架基于 PyTorch 写成，支持单目标跟踪、多目标跟踪与视频目标检测，目前已开源。

GitHub 地址：https://github.com/open-mmlab/mmtracking

MMTracking 效果展示。

据介绍，MMTracking 具备以下主要特性：

1. 首个开源一体化视频目标感知平台

对视频内的目标进行感知识别一直是学界、业界都非常关心的问题。这个问题在学界常被细分为不同的子问题，比如视频目标检测、多目标跟踪与单目标跟踪。具体来说，

视频目标检测只需对视频内的每一帧进行检测，不要求对不同帧中的同一目标进行关联。
多目标检测在完成视频目标检测的基础上，更加侧重于对视频内的同一目标进行关联。
单目标跟踪更加侧重人机交互，算法需要在给定一个任意类别、任意形状目标的情况下，对其进行持续跟踪。

近几年来，虽然各个任务都涌现了许多优秀的算法，但这些领域仍然缺少开源的代码框架，给代码复现、借鉴、公平对比带来了很大困难。OpenMMLab 将这些任务融合到了同一框架下，希望能够作为开源的一体化视频目标感知平台，推动不同子领域间的融合、互促与发展。

2. OpenMMLab 内部项目间的充分交互

视频目标感知在大部分情况下可以认为是 2D 目标检测的下游任务，十分依赖各种 2D 目标检测算法。在此之前，如何使用或切换不同的 2D 目标检测器其实是一个很烦琐耗时的任务。

MMTracking 充分利用了 OpenMMLab 其他平台的成果与优势，比如它 import 或继承了 MMDetection 中的大部分模块，极大地简化了代码框架。在这种模式下，通过 configs 可以直接使用 MMDetection 中的所有模型。以多目标跟踪举例，每一个多目标跟踪模型多由以下几个模块组成：

import torch.nn as nnfrom mmdet.models import build_detectorclass BaseMultiObjectTracker(nn.Module):def __init__(self,detector=None,reid=None,tracker=None,motion=None,pretrains=None):self.detector = build_detector(detector)...

Configs 示例：

model = dict(type='BaseMultiObjectTracker',detector=dict(type='FasterRCNN', **kwargs),reid=dict(type='BaseReID', **kwargs),motion=dict(type='KalmanFilter', **kwargs),tracker=dict(type='BaseTracker', **kwargs))

现阶段的 ReID 模型也继承了 MMClassification 中的一些模块并将在后期增加其他支持。

受益于 OpenMMLab 的这种模块化设计，MMTracking 可以利用其他图像级平台的已有成果，从而只需要注重视频部分模块的设计与开发。同时，如果用户需要单独训练一个目标检测器，该工具也支持直接使用 MMDetection 的 configs 进行训练，只需要在 config 中添加一句 USE_MMDET=True 即可将模式切换到 MMDetection 下，进行前序模型训练。

3. 高效、强大的基准模型

视频目标感知领域中的不同方法往往各成一派，缺乏公认的训练方法与准则，因此在很多时候很难做到真正的公平对比。

MMTracking v0.5 复现了各个领域的主流算法，包括：