大型语言模型推动了自然语言处理领域的最新进展,并在摘要生成、问题回答和文本分类等任务中取得了成功。然而,这些模型是基于大规模数据集进行训练的,这些数据集可能包含有害信息。研究表明,因此,这些模型在训练后可能会表现出社会偏见,并产生错误信息。本论文讨论了在公平性、可信赖性和安全性领域分析和解释大型语言模型风险的研究

论文的第一部分分析了大型语言模型中与社会偏见相关的公平性问题。我们首先研究了与非裔美国英语和标准美国英语相关的方言偏见问题,以及在文本生成的背景下的这些问题。我们还分析了更复杂的公平性设置:多个属性相互影响以形成复合偏见的情况。这在与性别和资历属性的关系中进行了研究。

第二部分专注于可信赖性和在不同范围内传播错误信息的问题:预防、检测和记忆。我们描述了一个用于新兴领域的开放域问答系统,该系统使用各种检索和重新排名技术,为用户提供来自可信来源的信息。这在新兴的 COVID-19 大流行的背景下得到了证明。我们进一步致力于通过创建一个大规模数据集来检测潜在的在线错误信息,该数据集将错误信息检测扩展到图像和文本的多模态空间。由于错误信息可能是人类编写的,也可能是机器编写的,我们研究了通过阴谋论的视角来记忆和随后生成错误信息。

论文的最后一部分描述了关于可能导致物理伤害的文本的 AI 安全方面的最新工作。这项研究分析了在包括生成、推理和检测在内的各种语言建模任务中的隐蔽不安全文本。

总体而言,这项工作揭示了大型语言模型中未被发现和代表性不足的风险。这可以推动当前研究朝着构建更安全、更公平的自然语言处理系统的方向发展。我们最后讨论了扩展这三个领域工作的负责任 AI 的未来研究。

成为VIP会员查看完整内容
34

相关内容

【NTU博士论文】自然语言处理的自回归生成,173页pdf
专知会员服务
25+阅读 · 2024年2月18日
【KAUST博士论文】高效视觉语言基础模型学习,197页pdf
专知会员服务
36+阅读 · 2024年1月1日
【MIT博士论文】实用机器学习的高效鲁棒算法,142页pdf
专知会员服务
58+阅读 · 2022年9月7日
【MIT博士论文】数据高效强化学习,176页pdf
【硬核书】树与网络上的概率,716页pdf
专知
23+阅读 · 2021年12月8日
【干货书】计算机科学离散数学,627页pdf
专知
61+阅读 · 2020年8月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
22+阅读 · 2023年3月17日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2009年12月31日
国家自然科学基金
47+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员