Most pre-trained learning systems are known to suffer from bias, which typically emerges from the data, the model, or both. Measuring and quantifying bias and its sources is a challenging task and has been extensively studied in image captioning. Despite the significant effort in this direction, we observed that existing metrics lack consistency in the inclusion of the visual signal. In this paper, we introduce a new bias assessment metric, dubbed $ImageCaptioner^2$, for image captioning. Instead of measuring the absolute bias in the model or the data, $ImageCaptioner^2$ pay more attention to the bias introduced by the model w.r.t the data bias, termed bias amplification. Unlike the existing methods, which only evaluate the image captioning algorithms based on the generated captions only, $ImageCaptioner^2$ incorporates the image while measuring the bias. In addition, we design a formulation for measuring the bias of generated captions as prompt-based image captioning instead of using language classifiers. Finally, we apply our $ImageCaptioner^2$ metric across 11 different image captioning architectures on three different datasets, i.e., MS-COCO caption dataset, Artemis V1, and Artemis V2, and on three different protected attributes, i.e., gender, race, and emotions. Consequently, we verify the effectiveness of our $ImageCaptioner^2$ metric by proposing AnonymousBench, which is a novel human evaluation paradigm for bias metrics. Our metric shows significant superiority over the recent bias metric; LIC, in terms of human alignment, where the correlation scores are 80% and 54% for our metric and LIC, respectively. The code is available at https://eslambakr.github.io/imagecaptioner2.github.io/.


翻译:大多数预训练学习系统众所周知地受到偏差的影响,这通常来自数据、模型,或者两者都有影响。衡量和量化偏差及其来源是一项具有挑战性的任务,在图像描述中得到了广泛研究。尽管在这个方向上已经做出了重大努力,但我们观察到现有度量在包括视觉信号方面缺乏一致性。本文介绍了一种新的图像描述偏差评估度量(简称 $ImageCaptioner^2$ )。$ImageCaptioner^2$ 不是测量模型或数据的绝对偏差,而是更关注于模型引入的偏差,即偏差放大。与现有方法不同,仅根据生成的标题评估图像描述算法的方法,$ImageCaptioner^2$ 在测量偏差时还考虑到图像。此外,我们设计了一种公式来测量生成标题的偏差,称之为基于提示的图像描述,而不是使用语言分类器。最后,我们将 $ImageCaptioner^2$ 度量应用于 11 种不同的图像描述架构上的三个不同数据集,即 MS-COCO 描述数据集、 Artemis V1 和 Artemis V2,以及三个不同的保护属性,即性别、种族和情感。因此,我们通过提出匿名评估,即首次探讨了评估偏差度量的人类评估范式验证了我们的 $ImageCaptioner^2$ 度量的有效性。我们的度量在人类对齐方面比最近的偏差度量 LIC 优越得多,相关得分分别为 80% 和 54%。代码可在 https://eslambakr.github.io/imagecaptioner2.github.io/ 上获取。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年2月6日
最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
15+阅读 · 2021年7月14日
A Survey on Data Augmentation for Text Classification
VIP会员
相关VIP内容
相关资讯
【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集
泡泡机器人SLAM
11+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员