语言模型(Language Models, LMs)在广泛应用中取得了卓越的性能,但它们常常产生带有偏差的结果,从而引发关于其可信部署的担忧。这些担忧呼唤针对 LMs 的特定公平性研究;然而,现有的大多数机器学习相关研究通常假设可以访问模型内部或训练数据——这一前提在大规模 LMs 中往往并不成立。随着 LMs 对社会影响的不断扩大,理解并解决这些模型独有的公平性挑战变得愈发重要。 为此,本教程首先通过展示真实世界中的偏差案例,强调其实际影响并揭示潜在成因。随后,我们给出适用于 LMs 的公平性概念定义,回顾偏差评估与缓解的方法,并提出一个用于公平性评测的多维度基准数据集分类体系。最后,我们总结并梳理当前开放的研究挑战,希望为社区提供概念上的清晰性与实践可用的工具,以推动 LMs 的公平性研究。教程的所有资源均可在以下地址公开获取:
https://github.com/vanbanTruong/fairness-in-large-language-models。