大模型道德价值观对齐问题剖析 - 专知VIP

会员服务 ·

50

大模型 · 大模型对齐 · 道德价值观对齐 ·

2023 年 10 月 3 日

大模型道德价值观对齐问题剖析

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

摘要: 探讨了以大语言模型（large language model，LLM）为代表的大模型（big model）时代人工智能（artificial intelligence, AI）发展面临的新挑战:道德价值观对齐问题. 大模型的崛起极大地提升了AI理解、生成和控制信息与内容的能力，从而赋能了丰富的下游应用. 然而，随着大模型成为与人类生活方方面面深度交融的基础，其内在的道德价值观和潜在的价值倾向对人类社会带来不可预测的风险. 首先对大模型面临的风险和挑战进行了梳理，介绍了当下主流的AI伦理准则和大模型的局限性对应的道德问题. 随后提出从规范伦理学的角度重新审视近年来不断提出的各类规范性准则，并倡导学界共同协作构建统一的普适性AI道德框架. 为进一步探究大模型的道德倾向，基于道德基础理论体系，检验了当下主流大语言模型的道德价值倾向，梳理了现有的大模型对齐算法，总结了大模型在道德价值观对齐上所面临的独特挑战. 为解决这些挑战，提出了一种新的针对大模型道德价值观对齐的概念范式，从对齐维度、对齐评测和对齐方法3个方面展望了有潜力的研究方向. 最后，倡导以交叉学科为基础，为将来构建符合人类道德观的通用AI迈出了重要一步. https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553

成为VIP会员查看完整内容

79

相关内容

大模型

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

【TPAMI2023】面向双任务对话语言理解的关系时序图推理

【TPAMI2023】面向双任务对话语言理解的关系时序图推理

专知会员服务

23+阅读 · 2023年7月5日

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

专知会员服务

216+阅读 · 2023年5月9日

面向智能博弈的决策Transformer方法综述

面向智能博弈的决策Transformer方法综述

专知会员服务

197+阅读 · 2023年4月14日

NeurIPS2022｜图对比学习的结构公平性初探

NeurIPS2022｜图对比学习的结构公平性初探

专知会员服务

18+阅读 · 2022年10月13日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

【ACL2021】认知启发的时序知识图谱两阶段推理模型

专知会员服务

46+阅读 · 2021年8月6日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

【剑桥大学】统计因果关系的决策理论基础，Decision-theoretic foundations for statistical causality

【剑桥大学】统计因果关系的决策理论基础，Decision-theoretic foundations for statistical causality

专知会员服务

48+阅读 · 2020年5月5日

【WSDM2020论文-UIUC】基于多模态图边变分自编码的社交网络关系学（附pdf）

专知会员服务

17+阅读 · 2019年11月23日

【AAAI2023】面向领域自适应语义分割的几何感知网络

【AAAI2023】面向领域自适应语义分割的几何感知网络

专知

8+阅读 · 2022年12月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

开放知识图谱

19+阅读 · 2019年6月4日

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

开放知识图谱

12+阅读 · 2019年5月26日

论文浅尝 | TuckER：基于张量分解的知识图谱补全

论文浅尝 | TuckER：基于张量分解的知识图谱补全

开放知识图谱

34+阅读 · 2019年3月17日

论文浅尝 | 面向单关系事实问题的中文问答模型

论文浅尝 | 面向单关系事实问题的中文问答模型

开放知识图谱

28+阅读 · 2019年2月11日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

漫谈机器阅读理解之Facebook提出的DrQA系统

漫谈机器阅读理解之Facebook提出的DrQA系统

深度学习每日摘要

18+阅读 · 2017年11月19日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

考虑一般约束条件下的消费投资决策模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于网络结构演化的Folksonomy模式中社群知识组织与知识涌现研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Posterior accuracy and calibration under misspecification in Bayesian generalized linear models

Arxiv

0+阅读 · 2023年11月15日

Unsupervised approaches based on optimal transport and convex analysis for inverse problems in imaging

Arxiv

0+阅读 · 2023年11月15日

The brain uses renewal points to model random sequences of stimuli

Arxiv

0+阅读 · 2023年11月13日

Bootstrap inference in functional linear regression models with scalar response under heteroscedasticity

Arxiv

1+阅读 · 2023年11月13日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Tensor Decompositions for temporal knowledge base completion

Arxiv

10+阅读 · 2020年4月10日

VIP会员

相关主题

大模型对齐

道德价值观对齐

相关VIP内容

【TPAMI2023】面向双任务对话语言理解的关系时序图推理

【TPAMI2023】面向双任务对话语言理解的关系时序图推理

专知会员服务

23+阅读 · 2023年7月5日

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

专知会员服务

216+阅读 · 2023年5月9日

面向智能博弈的决策Transformer方法综述

面向智能博弈的决策Transformer方法综述

专知会员服务

197+阅读 · 2023年4月14日

NeurIPS2022｜图对比学习的结构公平性初探

NeurIPS2022｜图对比学习的结构公平性初探

专知会员服务

18+阅读 · 2022年10月13日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

93+阅读 · 2021年10月19日

【ACL2021】认知启发的时序知识图谱两阶段推理模型

专知会员服务

46+阅读 · 2021年8月6日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

【剑桥大学】统计因果关系的决策理论基础，Decision-theoretic foundations for statistical causality

【剑桥大学】统计因果关系的决策理论基础，Decision-theoretic foundations for statistical causality

专知会员服务

48+阅读 · 2020年5月5日

【WSDM2020论文-UIUC】基于多模态图边变分自编码的社交网络关系学（附pdf）

专知会员服务

17+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄军无人机创新技术或已在乌克兰达成"战场空中封锁"作战效果》最新18页报告

【ICCV2025】Lay2Story：扩展扩散 Transformer 以实现可切换布局的故事生成

《多智能体不确定环境追逃博弈研究》216页

美智库最新发布《解放军"人机编组协同作战"发展路径：理论与实践》53页

相关资讯

【AAAI2023】面向领域自适应语义分割的几何感知网络

【AAAI2023】面向领域自适应语义分割的几何感知网络

专知

8+阅读 · 2022年12月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

论文浅尝 | 基于未知谓词与实体类型知识图谱的 Zero-Shot 问题生成

开放知识图谱

19+阅读 · 2019年6月4日

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

开放知识图谱

12+阅读 · 2019年5月26日

论文浅尝 | TuckER：基于张量分解的知识图谱补全

论文浅尝 | TuckER：基于张量分解的知识图谱补全

开放知识图谱

34+阅读 · 2019年3月17日

论文浅尝 | 面向单关系事实问题的中文问答模型

论文浅尝 | 面向单关系事实问题的中文问答模型

开放知识图谱

28+阅读 · 2019年2月11日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

25+阅读 · 2018年5月5日

漫谈机器阅读理解之Facebook提出的DrQA系统

漫谈机器阅读理解之Facebook提出的DrQA系统

深度学习每日摘要

18+阅读 · 2017年11月19日

相关基金

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

考虑一般约束条件下的消费投资决策模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于网络结构演化的Folksonomy模式中社群知识组织与知识涌现研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

相关论文

Posterior accuracy and calibration under misspecification in Bayesian generalized linear models

Arxiv

0+阅读 · 2023年11月15日

Unsupervised approaches based on optimal transport and convex analysis for inverse problems in imaging

Arxiv

0+阅读 · 2023年11月15日

The brain uses renewal points to model random sequences of stimuli

Arxiv

0+阅读 · 2023年11月13日

Bootstrap inference in functional linear regression models with scalar response under heteroscedasticity

Arxiv

1+阅读 · 2023年11月13日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Tensor Decompositions for temporal knowledge base completion

Arxiv

10+阅读 · 2020年4月10日

微信扫码咨询专知VIP会员