本文从时间的角度对视觉语言智能进行了全面的研究。这项研究的灵感来自于计算机视觉和自然语言处理的显著进展,以及从单一模态处理到多模态理解的最新趋势。我们将这一领域的发展总结为三个时期,即任务特定方法,视觉语言预训练(VLP)方法,以及由大规模弱标记数据训练的大模型。我们首先以一些常见的VL任务为例,介绍了特定于任务的开发方法。然后我们重点介绍了VLP方法,并全面回顾了模型结构和训练方法的关键组成部分。之后,我们展示了最近的工作是如何利用大规模的原始图像-文本数据来学习语言对齐的视觉表示,这种视觉表示在零或少数样本学习任务中得到了更好的泛化。最后,我们讨论了在模态协同、统一表示和知识整合方面的一些潜在的未来趋势。我们相信这篇综述将有助于人工智能和ML的研究人员和实践者,特别是那些对计算机视觉和自然语言处理感兴趣的人。