视频描述是自动生成描述给定视频内容的自然语言句子。它广泛适用于人类机器交互,帮助视力受损和视频标题生成。由于计算机视觉和自然语言处理的深度学习取得了前所未有的成功,过去几年来该领域的研究大量增加。研究文献中提出了许多方法,数据集和评估指标,呼吁需要进行全面调研综述,以将研究工作集中在这一蓬勃发展的新方向上。本文通过调研最先进的方法填补了这一空白,重点是深度学习模型;比较基准数据集的域,类别数和存储库大小;并确定各种评估指标的优缺点,如SPICE,CIDEr,ROUGE,BLEU,METEOR和WMD。经典的视频描述方法将主题,对象和动词检测与基于模板的语言模型相结合以生成句子。然而,大型数据集的发布表明,这些方法无法应对无约束开放域视频的多样性。经典方法之后是一个非常短暂的统计方法时代,很快被深度学习所取代,深度学习是视频描述的现有技术。我们的调研显示,尽管发展速度很快,但由于以下原因,视频描述研究仍处于起步阶段。对视频描述模型的分析具有挑战性,因为难以确定最终描述中视觉特征和所采用的语言模型对准确性或错误的贡献。现有数据集既不包含足够的视觉多样性也不包含语言结构的复杂性。最后,当前的评估指标未能衡量机器生成的描述与人类描述之间的一致性。我们通过列出有希望的未来研究方向来结束我们的调研。