【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf - 专知VIP

会员服务 ·

18

大型语言模型 · 安全性 · 公平性 · 可信性 · 负责任的人工智能 ·

2024 年 1 月 26 日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大型语言模型推动了自然语言处理领域的最新进展，并在摘要生成、问题回答和文本分类等任务中取得了成功。然而，这些模型是基于大规模数据集进行训练的，这些数据集可能包含有害信息。研究表明，因此，这些模型在训练后可能会表现出社会偏见，并产生错误信息。本论文讨论了在公平性、可信赖性和安全性领域分析和解释大型语言模型风险的研究。

论文的第一部分分析了大型语言模型中与社会偏见相关的公平性问题。我们首先研究了与非裔美国英语和标准美国英语相关的方言偏见问题，以及在文本生成的背景下的这些问题。我们还分析了更复杂的公平性设置：多个属性相互影响以形成复合偏见的情况。这在与性别和资历属性的关系中进行了研究。

第二部分专注于可信赖性和在不同范围内传播错误信息的问题：预防、检测和记忆。我们描述了一个用于新兴领域的开放域问答系统，该系统使用各种检索和重新排名技术，为用户提供来自可信来源的信息。这在新兴的 COVID-19 大流行的背景下得到了证明。我们进一步致力于通过创建一个大规模数据集来检测潜在的在线错误信息，该数据集将错误信息检测扩展到图像和文本的多模态空间。由于错误信息可能是人类编写的，也可能是机器编写的，我们研究了通过阴谋论的视角来记忆和随后生成错误信息。

论文的最后一部分描述了关于可能导致物理伤害的文本的 AI 安全方面的最新工作。这项研究分析了在包括生成、推理和检测在内的各种语言建模任务中的隐蔽不安全文本。

总体而言，这项工作揭示了大型语言模型中未被发现和代表性不足的风险。这可以推动当前研究朝着构建更安全、更公平的自然语言处理系统的方向发展。我们最后讨论了扩展这三个领域工作的负责任 AI 的未来研究。

成为VIP会员查看完整内容

34

相关内容

大型语言模型

大型语言模型

【NTU博士论文】自然语言处理的自回归生成，173页pdf

【NTU博士论文】自然语言处理的自回归生成，173页pdf

专知会员服务

26+阅读 · 2024年2月18日

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

专知会员服务

38+阅读 · 2024年1月17日

【KAUST博士论文】高效视觉语言基础模型学习，197页pdf

【KAUST博士论文】高效视觉语言基础模型学习，197页pdf

专知会员服务

36+阅读 · 2024年1月1日

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

专知会员服务

55+阅读 · 2023年11月11日

【CMU博士论文】利用文本语义学为知识图谱的获取和应用，105页pdf

【CMU博士论文】利用文本语义学为知识图谱的获取和应用，105页pdf

专知会员服务

36+阅读 · 2023年10月12日

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

专知会员服务

48+阅读 · 2023年9月11日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

59+阅读 · 2022年9月7日

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

专知会员服务

25+阅读 · 2022年8月3日

【MIT博士论文】情感理解的计算框架，200页pdf

【MIT博士论文】情感理解的计算框架，200页pdf

专知

0+阅读 · 2023年4月9日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

59+阅读 · 2023年4月5日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

【干货书】深度学习目标检测：原理与应用，276页pdf

【干货书】深度学习目标检测：原理与应用，276页pdf

专知

23+阅读 · 2022年9月24日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

【硬核书】树与网络上的概率，716页pdf

【硬核书】树与网络上的概率，716页pdf

专知

24+阅读 · 2021年12月8日

【经典书】全局优化算法：理论与应用，820页pdf

【经典书】全局优化算法：理论与应用，820页pdf

专知

40+阅读 · 2021年11月10日

【干货书】计算机科学离散数学，627页pdf

【干货书】计算机科学离散数学，627页pdf

专知

64+阅读 · 2020年8月31日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于格的高效签名方案的设计与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

图信号滤波与估计的理论及应用研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

17+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

VIP会员

相关主题

大型语言模型

负责任的人工智能

相关VIP内容

【NTU博士论文】自然语言处理的自回归生成，173页pdf

【NTU博士论文】自然语言处理的自回归生成，173页pdf

专知会员服务

26+阅读 · 2024年2月18日

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

专知会员服务

38+阅读 · 2024年1月17日

【KAUST博士论文】高效视觉语言基础模型学习，197页pdf

【KAUST博士论文】高效视觉语言基础模型学习，197页pdf

专知会员服务

36+阅读 · 2024年1月1日

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

【MIT博士论文】建模神经网络表示空间的几何结构，365页pdf

专知会员服务

55+阅读 · 2023年11月11日

【CMU博士论文】利用文本语义学为知识图谱的获取和应用，105页pdf

【CMU博士论文】利用文本语义学为知识图谱的获取和应用，105页pdf

专知会员服务

36+阅读 · 2023年10月12日

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

【芝加哥博士论文】深度生成模型:设计、改进和应用，149页pdf

专知会员服务

48+阅读 · 2023年9月11日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

【CMU博士论文】强化学习可解释：统一状态和策略级解释，132页pdf

专知会员服务

40+阅读 · 2022年11月22日

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

【MIT博士论文】实用机器学习的高效鲁棒算法，142页pdf

专知会员服务

59+阅读 · 2022年9月7日

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

【多伦多大学博士论文】整合语言学理论与神经语言模型，104页pdf

专知会员服务

25+阅读 · 2022年8月3日

热门VIP内容

开通专知VIP会员享更多权益服务

赋能真实世界：基于大语言模型的产业智能体技术、实践与评测综述

军事行动中人工智能系统目标交战的附带损伤评估模型 | 最新文献

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

美陆军协会（AUSA）2025 年会公布的美国十大武器与防务产品创新

相关资讯

【MIT博士论文】情感理解的计算框架，200页pdf

【MIT博士论文】情感理解的计算框架，200页pdf

专知

0+阅读 · 2023年4月9日

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

【牛津大学博士论文】风险敏感且鲁棒的基于模型的强化学习与规划，201页pdf

专知

4+阅读 · 2023年4月7日

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

【2023新书】AI4Science，人工智能促进科学发现，134页pdf

专知

59+阅读 · 2023年4月5日

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习，216页pdf

专知

17+阅读 · 2022年10月2日

【干货书】深度学习目标检测：原理与应用，276页pdf

【干货书】深度学习目标检测：原理与应用，276页pdf

专知

23+阅读 · 2022年9月24日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

【硬核书】树与网络上的概率，716页pdf

【硬核书】树与网络上的概率，716页pdf

专知

24+阅读 · 2021年12月8日

【经典书】全局优化算法：理论与应用，820页pdf

【经典书】全局优化算法：理论与应用，820页pdf

专知

40+阅读 · 2021年11月10日

【干货书】计算机科学离散数学，627页pdf

【干货书】计算机科学离散数学，627页pdf

专知

64+阅读 · 2020年8月31日

相关基金

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于格的高效签名方案的设计与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

图信号滤波与估计的理论及应用研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

17+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

Optimization for deep learning: theory and algorithms

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Deep learning in agriculture: A survey

Arxiv

11+阅读 · 2018年7月31日

微信扫码咨询专知VIP会员