视觉和语言在生成智能中起着至关重要的作用。因此,在过去的几年中,大量的研究致力于图像描述,即用句法和语义上有意义的句子描述图像的任务。从2015年开始,该任务通常使用由可视化编码步骤和用于文本生成的语言模型组成的流程来解决。在这些年里,这两个组件通过开发对象区域、属性和关系以及引入多模态连接、充分关注的方法和类似BERT的早期融合策略得到了相当大的发展。然而,尽管已经取得了令人印象深刻的成果,但关于图像描述的研究还没有得出一个结论性的答案。这项工作旨在提供图像描述方法的全面概述和分类,从视觉编码和文本生成到训练策略,使用的数据集和评估指标。在这方面,我们定量比较了许多相关的最先进的方法,以确定在图像描述架构和训练策略中最具影响力的技术创新。此外,本文还分析和讨论了该问题的许多变体及其面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术,并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。