上海交大发布「人类行为理解引擎」：深度学习+符号推理，AI逐帧理解大片中每个动作

会员服务 ·

上海交大发布「人类行为理解引擎」：深度学习+符号推理，AI逐帧理解大片中每个动作

2022 年 3 月 8 日 量子位

博雯发自凹非寺
量子位 | 公众号 QbitAI

看图看片，对现在的AI来说早已不是什么难事。

不过让AI分析视频中的人类动作时，传统基于目标检测的方法会碰到一个挑战：

静态物体的模式与行为动作的模式有很大不同，现有系统效果很不理想。

现在，来自上海交大的卢策吾团队基于这一思路，将整个任务分为了两个阶段：

先将像素映射到一个“基元活动”组成的过度空间，然后再用可解释的逻辑规则对检测到的基元做推断。

△ 左：传统方法，右：新方法

新方法让AI真正看懂剧里的卷福手在举杯(hold)，右边的人在伸手掏东西(reach for)：

对于游戏中的多人场景也能准确分辨每一个角色的当前动作：

甚至连速度飞快的自行车运动员都能完美跟随：

能够像这样真正理解视频的AI，就能在医疗健康护理、指引、警戒等机器人领域应用。

这篇论文的一作为上海交大博士李永露，曾在CVPR 2020连中三篇论文。

目前相关代码已开源。

知识驱动的行为理解

要让AI学习人类，首先要看看人类是怎么识别活动的。

比如说，要分辨走路和跑步，我们肯定会优先关注腿部的运动状态。

再比如，要分辨一个人是否是在“喝水”，那么他的手是否在握杯，随后头又是否接触杯子，这些动作就成为了一个判断标准。

这些原子性的，或者说共通的动作就可以被看作是一种“基元”（Primitive）。

我们正是将一个个的基元“组合”推理出整体的动作，这就是就是人类的活动感知。

那么AI是否也能基于发现这种基元的能力，将其进行组合，并编程为某个具有组合概括性的语义呢？

因此，卢策吾团队便提出了一种知识驱动的人类行为知识引擎，HAKE（Human Activity Knowledge Engine）。

这是一个两阶段的系统：

将像素映射到由原子活动基元跨越的中间空间
用一个推理引擎将检测到的基元编程为具有明确逻辑规则的语义，并在推理过程中更新规则。

整体来说，上述两个阶段也可以分为两个任务。

首先是建立一个包括了丰富的活动-基元标签的知识库，作为推理的“燃料”。

在于702位参与者合作之后，HAKE目前已有35.7万的图像/帧，67.3万的人像，22万的物体基元，以及2640万的PaSta基元。

其次，是构建逻辑规则库和推理引擎。

在检测到基元后，研究团队使用深度学习来提取视觉和语言表征，并以此来表示基元。

然后，再用可解释的符号推理按照逻辑规则为基元编程，捕获因果的原始活动关系。

在实验中，研究者选取了建立在HICO基础上，包含4.7万张图片和600次互动的HICO-DET，以及包含430个带有时空标签的视频的AVA，这两个大规模的基准数据集。

在两个数据集上进行实例级活动检测：即同时定位活动的人/物并对活动进行分类。

结果，HAKE，在HICO-DET上大大提升了以前的实例级方法，特别是在稀有集上，比TIN提高了9.74mAP（全类平均精度），HAKE的上限GT-HAKE也优于最先进的方法。

在AVA上，HAKE也提高了相当多的活动的检测性能，特别是20个稀有的活动。

通讯作者曾为李飞飞团队成员

论文的通讯作者是上海交通大学的卢策吾，也是计算机科学的教授。

在加入上海交大之前，他在香港中文大学获得了博士学位，并曾在斯坦福大学担任研究员，在李飞飞团队工作。

现在，他的主要研究领域为计算机视觉、深度学习、深度强化学习和机器人视觉。

一作李永露为上海交通大学的博士生，此前他曾在中国科学院自动化研究所工作。

在CVPR 2020他连中三篇论文，也都是围绕知识驱动的行为理解（Human Activity Understanding）方面的工作。

论文：
https://arxiv.org/abs/2202.06851v1

开源链接：
https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec

参考链接：
[1]http://hake-mvig.cn/home/
[2]https://www.bilibili.com/video/BV1s54y1Y76s
[3]https://zhuanlan.zhihu.com/p/109137970

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

逻辑规则

关注 1

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

专知会员服务

15+阅读 · 2022年4月6日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

斯坦福大学Jure Leskovec :《大规模知识图谱推理》，附44页ppt与视频

专知会员服务

58+阅读 · 2021年11月1日

【ICCV2021-Tutorial】大规模视觉定位，151页ppt

专知会员服务

32+阅读 · 2021年10月20日

【斯坦福博士论文】视觉语言的多模态表示，102页pdf

专知会员服务

73+阅读 · 2021年7月29日

视频分析中的人工智能 (AI)白皮书，16页pdf

专知会员服务

68+阅读 · 2021年5月6日

【ECCV2020】基于场景图分解的自然语言描述生成

专知会员服务

24+阅读 · 2020年9月3日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

DeepMind 的 AI 能指导人类的直觉吗？

InfoQ

2+阅读 · 2022年3月22日

论文浅尝 - ACL2022 | 面向推理阅读理解的神经符号方法

开放知识图谱

1+阅读 · 2022年3月21日

DeepMind的AI能指导人类的直觉吗？

AI前线

0+阅读 · 2022年3月21日

做语义分割不用任何像素标签，UCSD、英伟达在ViT中加入分组模块，入选CVPR2022

机器之心

0+阅读 · 2022年3月14日

MIT博士用概率编程让AI和人类一样看三维｜NeurIPS 2021

新智元

0+阅读 · 2021年12月18日

AI发现人类肾细胞有一半结构未知，UCSD最新研究登上Nature，算法已开源

量子位

0+阅读 · 2021年11月25日

论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

开放知识图谱

1+阅读 · 2021年9月20日

CVPR2020 | 论文解读三则-知识驱动的行为理解（HAKE）

极市平台

20+阅读 · 2020年3月9日

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

上海交大提出多模态框架「EmotionMeter」，更精准地识别人类情绪

PaperWeekly

19+阅读 · 2018年6月6日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

视频中事件的内容分析与语义描述

国家自然科学基金

1+阅读 · 2014年12月31日

视觉语义的Web统计模型及理解深化

国家自然科学基金

0+阅读 · 2014年12月31日

面向非刚体形变的三维形状表示与分析关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于解析模型的不同场景下行人异常行为的识别与跟踪

国家自然科学基金

0+阅读 · 2012年12月31日

预测状态表示中状态空间划分机制及应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于动作链及镜像神经系统的人类动作行为理解的认知计算研究

国家自然科学基金

1+阅读 · 2011年12月31日

非特定人自然语音情感识别的建模方法研究

国家自然科学基金

1+阅读 · 2011年12月31日

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices

Arxiv

1+阅读 · 2022年4月19日

Self-Supervised Equivariant Learning for Oriented Keypoint Detection

Arxiv

0+阅读 · 2022年4月19日

A Novel Deep ML Architecture by Integrating Visual Simultaneous Localization and Mapping (vSLAM) into Mask R-CNN for Real-time Surgical Video Analysis

Arxiv

0+阅读 · 2022年4月18日

Cryptographic Strain-Dependent Light Pattern Generators

Arxiv

0+阅读 · 2022年4月15日

Pre-training Methods in Information Retrieval

Arxiv

1+阅读 · 2022年4月15日

Simple but Effective: CLIP Embeddings for Embodied AI

Arxiv

1+阅读 · 2022年4月15日

Cartesian Tree Subsequence Matching

Arxiv

0+阅读 · 2022年4月15日

Time Difference on Arrival Extraction from Two-Way Ranging

Arxiv

0+阅读 · 2022年4月12日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

VIP会员