There is growing interest in searching for information from large video corpora. Prior works have studied relevant tasks, such as text-based video retrieval, moment retrieval, video summarization, and video captioning in isolation, without an end-to-end setup that can jointly search from video corpora and generate summaries. Such an end-to-end setup would allow for many interesting applications, e.g., a text-based search that finds a relevant video from a video corpus, extracts the most relevant moment from that video, and segments the moment into important steps with captions. To address this, we present the HiREST (HIerarchical REtrieval and STep-captioning) dataset and propose a new benchmark that covers hierarchical information retrieval and visual/textual stepwise summarization from an instructional video corpus. HiREST consists of 3.4K text-video pairs from an instructional video dataset, where 1.1K videos have annotations of moment spans relevant to text query and breakdown of each moment into key instruction steps with caption and timestamps (totaling 8.6K step captions). Our hierarchical benchmark consists of video retrieval, moment retrieval, and two novel moment segmentation and step captioning tasks. In moment segmentation, models break down a video moment into instruction steps and identify start-end boundaries. In step captioning, models generate a textual summary for each step. We also present starting point task-specific and end-to-end joint baseline models for our new benchmark. While the baseline models show some promising results, there still exists large room for future improvement by the community. Project website: https://hirest-cvpr2023.github.io


翻译:视频分层检索与步骤字幕生成 随着大型视频语料库中信息搜索的日益增长,越来越多的研究关注于相关任务,如基于文本的视频检索、片段检索、视频摘要和视频字幕生成等。这些任务之前通常被独立地研究,没有一个端到端的设置,可以共同从视频库中检索信息并生成总结。这种端到端的设置可以实现各种有趣的应用,例如基于文本的搜索,从视频库中找到相关视频,提取最相关的片段,并将片段分解为重要的步骤,配有字幕。为了解决这个问题,我们提出了HiREST(HIerarchical REtrieval and STep-captioning)数据集,并提出了一个新的基准,涵盖从教学视频语料库中进行分层信息检索和基于视觉/文本的逐步概述的内容。HiREST由3.4K个文本-视频对组成,来自教学视频数据集,其中1.1K个视频具有与文本查询相关的片段跨度注释,并将每个片段分解为具有字幕和时间戳的重要说明步骤(共8.6K个步骤字幕)。我们的分层基准包括视频检索、片段检索和两个新的片段分割和步骤字幕生成任务。在片段分割中,模型将视频片段分解为说明步骤,并识别起始-结束边界。在步骤字幕生成中,模型为每个步骤生成文本总结。我们还提出了新基准的起点任务特定和端到端联合基线模型。虽然基线模型显示出了一些有希望的结果,但仍然存在很大改进的空间供社区使用。项目网站:https://hirest-cvpr2023.github.io

0
下载
关闭预览

相关内容

专知会员服务
37+阅读 · 2021年3月31日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
Pytorch多模态框架MMF
专知
49+阅读 · 2020年6月20日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
10+阅读 · 2021年8月4日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
11+阅读 · 2018年1月11日
VIP会员
相关VIP内容
专知会员服务
37+阅读 · 2021年3月31日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员