Our goal is to learn a video representation that is useful for downstream procedure understanding tasks in instructional videos. Due to the small amount of available annotations, a key challenge in procedure understanding is to be able to extract from unlabeled videos the procedural knowledge such as the identity of the task (e.g., 'make latte'), its steps (e.g., 'pour milk'), or the potential next steps given partial progress in its execution. Our main insight is that instructional videos depict sequences of steps that repeat between instances of the same or different tasks, and that this structure can be well represented by a Procedural Knowledge Graph (PKG), where nodes are discrete steps and edges connect steps that occur sequentially in the instructional activities. This graph can then be used to generate pseudo labels to train a video representation that encodes the procedural knowledge in a more accessible form to generalize to multiple procedure understanding tasks. We build a PKG by combining information from a text-based procedural knowledge database and an unlabeled instructional video corpus and then use it to generate training pseudo labels with four novel pre-training objectives. We call this PKG-based pre-training procedure and the resulting model Paprika, Procedure-Aware PRe-training for Instructional Knowledge Acquisition. We evaluate Paprika on COIN and CrossTask for procedure understanding tasks such as task recognition, step recognition, and step forecasting. Paprika yields a video representation that improves over the state of the art: up to 11.23% gains in accuracy in 12 evaluation settings. Implementation is available at https://github.com/salesforce/paprika.


翻译:我们的目标是学习一个视频表示方法,该方法对下游的教学视频理解任务有用。由于可用注释数量较少,因此在过程理解中的一个关键挑战是能够从未标记的视频中提取过程知识,例如任务的身份(例如,“做拿铁”),其步骤(例如,“倒牛奶”)或在执行过程中给出部分进度的潜在下一步。我们的主要见解在于教学视频展示了同一或不同任务之间重复发生的步骤序列,而这个结构可以由一个过程知识图(PKG)很好地表示,其中节点是离散的步骤,而边连接在教学活动中按顺序发生的步骤。然后可以使用这个图生成伪标签,以训练编码过程知识的视频表示,以更易于使用的形式广泛适用于多个过程理解任务。我们通过将基于文本的过程知识数据库和未标记的教学视频语料库的信息组合来构建PKG,然后使用它来生成四个新的预训练目标的训练伪标签。我们称这种PKG-based预训练过程为Paprika,即过程感知的教学知识获取的预训练。我们在COIN和CrossTask上评估了Paprika的任务识别、步骤识别和步骤预测等过程理解任务。Paprika产生了一个超越现有技术的视频表示:在12个评估设置中的精度提高了高达11.23%。实现可在https://github.com/salesforce/paprika中找到。

0
下载
关闭预览

相关内容

专知会员服务
88+阅读 · 2021年6月29日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月22日
Arxiv
0+阅读 · 2023年5月20日
VIP会员
相关VIP内容
专知会员服务
88+阅读 · 2021年6月29日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员