长篇视频内容占据了互联网流量的大部分,使得自动视频摘要成为一个重要的研究问题。然而,现有的视频摘要数据集在其规模上明显有限,限制了最先进方法的泛化效果。我们的工作旨在通过利用大量的长篇视频以及密集的语音到视频对齐,加上最近大型语言模型(LLMs)在长文本摘要方面的显著能力,来克服这一限制。我们引入了一个自动化且可扩展的流程,使用LLMs作为Oracle摘要器,来生成大规模的视频摘要数据集。通过利用生成的数据集,我们分析了现有方法的局限性,并提出了一个新的视频摘要模型,有效地解决了这些问题。为了进一步推动该领域的研究,我们的工作还提出了一个新的基准数据集,包含1200个长视频,每个视频都有专业人士注释的高质量摘要。广泛的实验清楚地表明,我们提出的方法在几个基准测试中设定了新的视频摘要的最先进水平。

成为VIP会员查看完整内容
21

相关内容

【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
23+阅读 · 2月28日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
17+阅读 · 2022年6月14日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
18+阅读 · 2020年10月13日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CVPR2024】扩散模型的结构指导对抗训练
专知会员服务
23+阅读 · 2月28日
【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
21+阅读 · 2023年10月21日
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
17+阅读 · 2022年6月14日
专知会员服务
12+阅读 · 2021年10月11日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
18+阅读 · 2020年10月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员