Fine-grained action segmentation and recognition is an important yet challenging task. Given a long, untrimmed sequence of kinematic data, the task is to classify the action at each time frame and segment the time series into the correct sequence of actions. In this paper, we propose a novel framework that combines a temporal Conditional Random Field (CRF) model with a powerful frame-level representation based on discriminative sparse coding. We introduce an end-to-end algorithm for jointly learning the weights of the CRF model, which include action classification and action transition costs, as well as an overcomplete dictionary of mid-level action primitives. This results in a CRF model that is driven by sparse coding features obtained using a discriminative dictionary that is shared among different actions and adapted to the task of structured output learning. We evaluate our method on three surgical tasks using kinematic data from the JIGSAWS dataset, as well as on a food preparation task using accelerometer data from the 50 Salads dataset. Our results show that the proposed method performs on par or better than state-of-the-art methods.


翻译:精细区分动作和识别是一项重要但又具有挑战性的任务。 在一个漫长、未剪剪的运动数据序列中,任务在于将每个时间框架的行动分类,并将时间序列分成正确的行动序列。 在本文件中,我们提出了一个新框架,将时间条件随机字段模型与基于歧视性稀疏编码的强大框架级代表制相结合。 我们引入了一种端对端算法,用于共同学习通用报告格式模型的重量,其中包括行动分类和动作过渡成本,以及中层行动原始词典的过于完整。这导致形成一种通用报告格式模型,该模型的驱动因素是使用不同行动共享的歧视性词典获得的稀少的编码特征,并适应了结构化产出学习的任务。我们用来自JIGSAWS数据集的动态数据来评估我们三项外科任务的方法,并利用来自50萨拉德数据集的加速计数据来评估食品准备任务。 我们的结果表明,拟议的方法在平面或优于状态方法上进行。

4
下载
关闭预览

相关内容

条件随机域(场)(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在效率较高的算法可供演算。
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
15+阅读 · 2020年4月28日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
5+阅读 · 2019年6月5日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员