目标分割和目标跟踪是计算机视觉领域的基础研究领域。这两个主题很难处理一些常见的挑战,如遮挡、变形、运动模糊、缩放变化等。前者包含异构对象、交互对象、边缘模糊性和形状复杂性;后者在处理快速运动、不可见和实时处理方面存在困难。结合视频目标分割和跟踪两个问题,可以克服各自的困难,提高视频目标的性能。VOST可广泛应用于视频摘要、高清视频压缩、人机交互、无人驾驶汽车等实际应用中。本综述旨在提供最先进的VOST方法的全面回顾,将这些方法分类为不同的类别,并确定新的趋势。首先,我们将VOST方法大致分为视频对象分割(VOS)和基于分割的对象跟踪(SOT)。根据分割和跟踪机制,将每个类别进一步划分为不同的类型。在此基础上,给出了各时间节点的代表性VOS和SOT方法。其次,对不同方法的技术特点进行了详细的讨论和概述。第三,总结了相关视频数据集的特点,并给出了各种评价指标。最后,我们指出了一系列有趣的工作,并得出了自己的结论。