**计算机视觉系统正日益被部署到现实世界的应用中,例如自动驾驶汽车上的识别模型、演示软件中的字幕模型以及视觉搜索引擎背后的检索模型。**在构建这些真实的计算机视觉系统时存在许多实际挑战,其中许多与数据的不完美有关。具体来说,现实世界的数据可能会因分散注意力的虚假相关性而产生偏差,不同类别存在不平衡的长尾数据,具有大量缺陷的噪声数据,等等。本文研究了如何在不同的视觉任务中解决三种常见的数据缺陷。首先,研究了图像分类中的偏置问题。本文提出一个新的基准,通过数据增强具有可控偏差。对现有的偏差消除方法进行了彻底的比较,并提出了一种简单的方法,优于其他更复杂的对比方法。其次,研究了图像描述中的长尾问题。展示了现有的字幕模型如何更喜欢常见的概念,并由于长尾而生成过度通用的字幕。为解决该问题,在评估方面,提出了一种新的指标来同时捕捉唯一性和准确性。在建模方面,引入了一种推理时间重排序技术,以生成多样化和信息量大的标题。最后,对视频检索中的噪声问题进行了研究。展示了噪声注释如何在模型训练和评估中引入挑战。然后,我们提出一种简单而有效的多查询方法来解决这个问题。通过大量的实验表明,多查询训练可以带来优越的性能,而多查询评估可以更好地反映检索模型的真实能力。

成为VIP会员查看完整内容
25

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
134+阅读 · 2022年10月4日
【MIT博士论文】数据高效强化学习,176页pdf
专知会员服务
85+阅读 · 2022年7月11日
【CMU博士论文】开放世界目标检测与跟踪,168页pdf
专知会员服务
58+阅读 · 2021年6月14日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
Arxiv
1+阅读 · 2023年5月2日
Arxiv
0+阅读 · 2023年5月1日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员