Linguistic bias in online news and social media is widespread but difficult to measure. Yet, its identification and quantification remain difficult due to subjectivity, context dependence, and the scarcity of high-quality gold-label datasets. We aim to reduce annotation effort by leveraging pairwise comparison for bias annotation. To overcome the costliness of the approach, we evaluate more efficient implementations of pairwise comparison-based rating. We achieve this by investigating the effects of various rating techniques and the parameters of three cost-aware alternatives in a simulation environment. Since the approach can in principle be applied to both human and large language model annotation, our work provides a basis for creating high-quality benchmark datasets and for quantifying biases and other subjective linguistic aspects. The controlled simulations include latent severity distributions, distance-calibrated noise, and synthetic annotator bias to probe robustness and cost-quality trade-offs. In applying the approach to human-labeled bias benchmark datasets, we then evaluate the most promising setups and compare them to direct assessment by large language models and unmodified pairwise comparison labels as baselines. Our findings support the use of pairwise comparison as a practical foundation for quantifying subjective linguistic aspects, enabling reproducible bias analysis. We contribute an optimization of comparison and matchmaking components, an end-to-end evaluation including simulation and real-data application, and an implementation blueprint for cost-aware large-scale annotation


翻译:在线新闻和社交媒体中的语言偏见普遍存在但难以测量。然而,由于主观性、语境依赖性以及高质量黄金标签数据集的稀缺性,其识别与量化仍然面临挑战。本研究旨在通过利用成对比较进行偏见标注来减少标注工作量。为克服该方法的高成本问题,我们评估了基于成对比较评分的更高效实施方案。通过在仿真环境中研究多种评分技术的影响以及三种成本感知替代方案的参数,我们实现了这一目标。由于该方法原则上可同时适用于人工标注和大语言模型标注,我们的工作为创建高质量基准数据集以及量化偏见和其他主观语言特征提供了基础。控制仿真包括潜在严重程度分布、距离校准噪声和合成标注者偏见,以探究鲁棒性及成本-质量权衡关系。在将该方法应用于人工标注的偏见基准数据集时,我们评估了最具潜力的配置方案,并将其与大型语言模型的直接评估以及未经修改的成对比较标签基线进行对比。研究结果支持将成对比较作为量化主观语言特征的实践基础,从而实现可复现的偏见分析。本研究的贡献包括:比较与匹配组件的优化、涵盖仿真与真实数据应用的端到端评估,以及成本感知的大规模标注实施方案蓝图。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
专知会员服务
29+阅读 · 2021年6月7日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
专知会员服务
29+阅读 · 2021年6月7日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
相关资讯
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员