近年来,大规模的图像和视频数据集以及现代机器学习技术推动了计算机视觉的显著进展。然而,将计算机视觉应用于现实世界问题仍然是一个挑战。其中一个难点在于需要理解图像和视频的细粒度细节(例如视频中事件发生的精确时刻、体育运动中的技术动作或平衡良好的摄影构图概念)。 本论文通过四个示例任务研究细粒度的图像和视频分析:(1)高时间精度定位事件(即时间精确检测),(2)识别细粒度动作(例如网球、体操或滑冰等活动中的动作),(3)学习裁剪美观的图像,以及(4)将物体放置在场景中。这些任务需要在时间、空间、类别和图像美学方面进行细粒度的理解和预测。虽然这些任务在概念上与广泛研究的计算机视觉问题有许多相似之处,但在实践中它们由于问题的难度和微妙性而提出了新的独特挑战。为了很好地执行这些任务,模型需要稳健地提取信息并精确地推理关于高度特定的图像和视频分布。通常,训练时可用的标签非常有限,而新的真实标签和数据获取成本高昂——无论是在人工劳动还是领域专业知识方面。 为了解决这些挑战,我们提出了一系列弱监督方法来完成这些任务。我们的方法包括在大量未标注的域内数据上进行训练,使用自动生成的终端任务(或接近终端任务)标签和监督,以及高效的视频模型架构以使优化变得可行。尽管仅在稀疏、少量、不完整或没有真实标签的条件下进行训练,我们仍然实现了与更强监督方法相竞争的最新性能。我们分析并讨论了我们的方法、其局限性以及我们工作的广泛影响,特别是对于细粒度图像和视频理解任务在计算机视觉领域的意义。 大规模的图像和视频数据、预训练技术以及强大的视觉模型推动了在图像识别、目标检测、视频分类等难题上快速进展。然而,将计算机视觉应用于许多现实世界问题仍然具有挑战性。 以检测网球运动员击球的精确时刻或花样滑冰选手或体操运动员起跳或落地的瞬间为例(图1.1)。这些动作对于解析体育视频中的技术动作至关重要,但它们细微而短暂。许多动作发生在一瞬间,集中在画面的一个小区域(即球拍或运动员)。要有效检测这些事件,时间公差需要精确到单帧。虽然许多先前的工作研究了视频中动作的时间检测,但它们采用的是更粗糙的时间尺度(例如,几十秒的间隔和几十到几百帧的公差)和语义粒度(例如,网球或高尔夫等一般活动与网球中的具体动作)。因此,这些先前的方法在用于细粒度和严格的事件检测时表现不佳。 总体而言,我研究了四个细粒度问题实例,两个在视频上,两个在图像上。这些任务包括(1)高时间精度定位事件(即时间精确检测),(2)识别细粒度动作(例如网球、体操或滑冰中的动作),(3)学习裁剪美观的图像,以及(4)将物体放置在场景中。这些任务基于实际应用,但也提出了现有文献未能充分解决的共同挑战。