视频描述是自动生成描述给定视频内容的自然语言句子。它广泛适用于人类机器交互,帮助视力受损和视频标题生成。由于计算机视觉和自然语言处理的深度学习取得了前所未有的成功,过去几年来该领域的研究大量增加。研究文献中提出了许多方法,数据集和评估指标,呼吁需要进行全面调研综述,以将研究工作集中在这一蓬勃发展的新方向上。本文通过调研最先进的方法填补了这一空白,重点是深度学习模型;比较基准数据集的域,类别数和存储库大小;并确定各种评估指标的优缺点,如SPICE,CIDEr,ROUGE,BLEU,METEOR和WMD。经典的视频描述方法将主题,对象和动词检测与基于模板的语言模型相结合以生成句子。然而,大型数据集的发布表明,这些方法无法应对无约束开放域视频的多样性。经典方法之后是一个非常短暂的统计方法时代,很快被深度学习所取代,深度学习是视频描述的现有技术。我们的调研显示,尽管发展速度很快,但由于以下原因,视频描述研究仍处于起步阶段。对视频描述模型的分析具有挑战性,因为难以确定最终描述中视觉特征和所采用的语言模型对准确性或错误的贡献。现有数据集既不包含足够的视觉多样性也不包含语言结构的复杂性。最后,当前的评估指标未能衡量机器生成的描述与人类描述之间的一致性。我们通过列出有希望的未来研究方向来结束我们的调研。

成为VIP会员查看完整内容
38

相关内容

最新《深度半监督学习》综述论文,43页pdf
专知会员服务
153+阅读 · 2020年6月12日
最新《深度学习行人重识别》综述论文,24页pdf
专知会员服务
80+阅读 · 2020年5月5日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
CVPR 2019视频描述(video caption)相关论文总结
极市平台
36+阅读 · 2019年10月16日
【旷视出品】细粒度图像分析综述
专知
15+阅读 · 2019年7月11日
最全综述 | 图像目标检测
计算机视觉life
31+阅读 · 2019年6月24日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
7+阅读 · 2018年12月5日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
VIP会员
微信扫码咨询专知VIP会员