如何用Transformer分清12位女排运动员？这个「时空双路」框架刷群体行为识别SOTA

2022 年 6 月 10 日 新智元

新智元报道

编辑：好困

【新智元导读】本文作者提出了一种简洁的Dual-AI框架，它以两种互补的顺序灵活地安排空间和时间Transformer，通过整合不同时空路径的优点来增强个体间的关系。

群体行为识别（Group Activity Recognition）不同于寻常的关于个体动作的行为识别（Action Recognition），需要通过分析视频中所有参与群体活动的个体之间的关系，进一步结合场景信息，对群体活动的行为类别做出判别。

以下面排球比赛视频为例，算法需要分析场上12位运动员的动作、交互以及场景内容，综合判断得到场上在进行左侧击球（left-spike）群体行为。

‍

被忽略的互补建模顺序

由于群体行为识别的多粒度特性以及明确的粒度含义（个体-群体），GCN、transformer以及CNN的attention模块都经常被用作对群体进行建模的工具。

但是，以往的工作，如ARG、SAM和Actor Transformer都仅以一个时空顺序对个体关系进行建模，即时间-空间（TS，Temporal- Spatial）或空间-时间（ST，Spatial-Temporal）。

最近，来自悉尼科技大学、新加坡国立大学以及中科院深圳先进院等机构的作者发现，不同的时空建模顺序对于个体之间的关系模型，进一步对群体行为关系判别有着不同的优势。

如图1（a）所示，个体1和4分别进行起跳击球和起跳拦网的动作，先进行时间建模可以更好地捕捉个体的动作特性；进一步分析个体1-4的空间场景关系，可以通过左侧队伍（个体2/3在等待个体1起跳击球）和右侧队伍（多个个体起跳拦网）的空间关系，更好地表达左侧击球的群体特征（left-spike）。

而在图（b）中，个体2和个体1都在进行起跳（一个佯攻，一个传球）的动作，如果先进行时间建模，则会混淆后续的空间建模和群体行为判定；反而，先进行空间建模，可以更好地得到同侧队友之间的场景信息和空间关系，进一步的时间建模，可以更好地区分个体1和个体2的起跳行为，进而得到正确的群体行为分类。

图1 不同的时空建模顺序适合于不同的群体行为类别

Dual-AI互补的时空建模

基于上述观察和动机，作者提出了简洁的Dual-AI框架，通过对视频中所有个体特征的关系建模，得到互补的个体和群体行为特征。论文已被CVPR 2022 Oral收录。

论文地址：https://arxiv.org/abs/2204.02148

如图2所示，空间建模（S-Trans）仅对一帧内的N个个体进行关系建模，时间建模（T-Trans）建模一个个体在不同帧中的关系。

通过对T-Trans和S-Trans不同顺序的堆叠，即可以得到互补的时空特征表达，在分类器得到行为判别后， late-fusion得到融合结果。

图2 简洁的互补时空建模Dual-AI

另外，为了更好地约束两个独立分支的特征交互，作者提出了多尺度的个体对比损失函数（MAC-Loss，Multi-scale Actor Contrastive Loss）。其核心是在时空建模后，相比于其他个体特征，同一个体特征表达应该有着一定的相似性。

如图3所示，作者提出个体在帧（Frame）级别和视频（Video）级别特征表达在不同建模分支间的对比损失关系，即帧-帧（F-F，Frame-Frame）、帧-视频（F-V，Frame-Video）和视频-视频（V-V，Video-Video）。

图3 多尺度的个体损失函数MAC-Loss

多种数据设定验证

在全监督设定下，模型通常需要场上参与群体行为的个体的标注包围框、个体的动作标签以及群体行为标签，如图4所示。

图4 全监督提供12位运动员的精细标注

为了进一步减少标注成本，也为了检验模型的鲁棒性，文章提出有限数据设定（limited data），验证模型在有限标注数据（如50%）下的表现；同时，文章也在弱监督设定（不提供个体真值标注，如包围框和行为类别，如图5）下验证了方法的有效性。

图5 弱监督引入场外噪声，减少标注成本

先进和鲁棒的实验结果

如表1和表2所示，以最常用的Volleyball dataset为例，作者用同一个模型在全监督和弱监督设定下都实现了当前最优的结果。

表1 弱监督设定下的精度比较

表2 Volleyball Dataset下的精度比较

更令人印象深刻的是，如图6所示，作者用50%的数据可以达到以往SOTA方法100%数据的精度；在仅适用25%数据的情况下（同时使用光流输入），仍得到与其他方法相持平的表现。

图6 不同数据量下的精度，实心点表示同时使用光流输入

导师介绍

王亚立，中国科学院深圳先进技术研究院，副研究员。中国科学院青年创新促进会成员、深圳市孔雀人才、后备级人才、领航人才。

重点从事深度学习与计算机视觉、模式识别与机器学习等人工智能前沿研究。在CVPR、ICCV、ECCV、ICLR、NeurIPS、ICML、AAAI等相关领域顶级刊物发表高水平论文近50篇，包括9篇Oral论文。

获得广东省技术发明一等奖、吴文俊人工智能科技进步二等奖、深圳市科技进步奖二等奖。获得加拿大FRQNT国际奖学金、腾讯AI Lab犀牛鸟基金、国家留学基金委公派留学奖学金等奖励。

作为项目负责人获批国家自然科学基金（面上、青年）、深圳市基础研究项目，重点参与国家重点研发计划、NSFC-深圳机器人基础研究中心项目、广东省应用研发等10余重大科技项目。

近5年申请30项发明专利，授权发明专利8项，通过横向项目转移给华为、腾讯等龙头人工智能公司9项。

王亚立老师课题组欢迎各位同学报考及联系，招聘类别包括：即将参加硕士生保研及夏令营推免的同学（2023年入学），客座学生（已完成课程的本科生、研究生，长期招聘），2023年考研等。

SIAT多媒体技术研究中心

中国科学院深圳先进技术研究院多媒体技术研究中心主要致力于计算机视觉、深度学习、多媒体、智能机器人等领域的研究和开发。

中心团队在包括PAMI、T-IP、IJCV、CVPR、ICCV、ECCV、AAAI等会议和期刊上发表学术论文300余篇，多次在ChaLearn、LSun、ActivityNet、EmotionW等国际评测中取得第一，获AAAI 2021杰出论文奖。

简历投递（邮箱地址）：

zoujing@siat.ac.cn

夏令营推免相关信息：

http://szs.siat.ac.cn/#/detail?item=%5Bobject%20Object%5D&list=%5Bobject%20Object%5D&contentId=1374

多媒体中心简介：

http://mmlab.siat.ac.cn/aboutus?menu=1

参考资料：

https://arxiv.org/abs/2204.02148

登录查看更多

相关内容

群体行为识别

关注 2

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

可分离尺度Transformer

专知会员服务

23+阅读 · 2022年7月16日

【CVPR2022】基于序列对比学习的长视频帧方向动作表示

专知会员服务

10+阅读 · 2022年3月29日

【ICLR2022】UniFormer：无缝集成 Transformer，更高效的时空表征学习框架

专知会员服务

50+阅读 · 2022年2月16日

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

11+阅读 · 2021年12月10日

【ICCV2021】用于群体行为识别的动态时空推理网络

专知会员服务

37+阅读 · 2021年9月15日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【CVPR2021】CVPR2021 | MotionRNN：针对复杂时空运动的通用视频预测模型

专知会员服务

14+阅读 · 2021年4月22日

【AAAI2021】时空融合图神经网络的交通流预测

专知会员服务

110+阅读 · 2020年12月22日

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

图神经网络作CV骨干模型，来听听华为诺亚是怎么做的

机器之心

0+阅读 · 2022年6月27日

CVPR 2022 | 浙大&MSRA提出基于序列对比学习的长视频逐帧动作表示

CVer

0+阅读 · 2022年6月5日

CVPR 2022 | 刷新4个SOTA！港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架

CVer

1+阅读 · 2022年3月28日

把大核卷积拆成三步，清华胡事民团队新视觉Backbone刷榜了，集CNN与ViT优点于一身

量子位

2+阅读 · 2022年2月23日

初探Video Transformer（一）：抛弃CNN的纯Transformer视频理解框架—TimeSformer

极市平台

3+阅读 · 2021年12月23日

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

机器之心

0+阅读 · 2021年12月12日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

PaperWeekly

10+阅读 · 2019年6月11日

干货｜基于双流递归神经网络的人体骨架行为识别！

全球人工智能

13+阅读 · 2017年12月15日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

知觉学习影响视觉刺激显著性的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

基于群体智能的人群疏散仿真模型及动态路径规划方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

自我运动中Optic flow对物体运动知觉的影响机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

多目标视觉追踪中注意分配的认知神经机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

视频中交互行为的表示与理解方法

国家自然科学基金

1+阅读 · 2012年12月31日

视觉知觉学习与视觉信息加工的空间参考坐标

国家自然科学基金

0+阅读 · 2012年12月31日

基于空间位置编码的时间知觉的研究

国家自然科学基金

0+阅读 · 2011年12月31日

Multi-Attention Network for Compressed Video Referring Object Segmentation

Arxiv

0+阅读 · 2022年7月26日

3D Siamese Transformer Network for Single Object Tracking on Point Clouds

Arxiv

0+阅读 · 2022年7月25日

NeuroHSMD: Neuromorphic Hybrid Spiking Motion Detector

Arxiv

0+阅读 · 2022年7月22日

AiATrack: Attention in Attention for Transformer Visual Tracking

Arxiv

0+阅读 · 2022年7月22日

Stripformer: Strip Transformer for Fast Image Deblurring

Arxiv

0+阅读 · 2022年7月22日

hp3D User Manual

Arxiv

0+阅读 · 2022年6月29日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Counterfactual Zero-Shot and Open-Set Visual Recognition

Arxiv

12+阅读 · 2021年3月1日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

VIP会员