**计算机视觉系统正日益被部署到现实世界的应用中,例如自动驾驶汽车上的识别模型、演示软件中的字幕模型以及视觉搜索引擎背后的检索模型。**在构建这些真实的计算机视觉系统时存在许多实际挑战,其中许多与数据的不完美有关。具体来说,现实世界的数据可能会因分散注意力的虚假相关性而产生偏差,不同类别存在不平衡的长尾数据,具有大量缺陷的噪声数据,等等。本文研究了如何在不同的视觉任务中解决三种常见的数据缺陷。首先,研究了图像分类中的偏置问题。本文提出一个新的基准,通过数据增强具有可控偏差。对现有的偏差消除方法进行了彻底的比较,并提出了一种简单的方法,优于其他更复杂的对比方法。其次,研究了图像描述中的长尾问题。展示了现有的字幕模型如何更喜欢常见的概念,并由于长尾而生成过度通用的字幕。为解决该问题,在评估方面,提出了一种新的指标来同时捕捉唯一性和准确性。在建模方面,引入了一种推理时间重排序技术,以生成多样化和信息量大的标题。最后,对视频检索中的噪声问题进行了研究。展示了噪声注释如何在模型训练和评估中引入挑战。然后,我们提出一种简单而有效的多查询方法来解决这个问题。通过大量的实验表明,多查询训练可以带来优越的性能,而多查询评估可以更好地反映检索模型的真实能力。