成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
智能体觉醒自我意识?DeepMind警告:当心模型「阳奉阴违」
2022 年 10 月 12 日
新智元
新智元报道
编辑:LRS
【新智元导读】
强化学习不只是智能体和环境之间的博弈,也是开发者与智能体在规则设计上的博弈。
随着人工智能系统越来越先进,智能体「钻空子」的能力也越来越强,虽然能完美执行训练集中的任务,但在没有捷径的测试集,表现却一塌糊涂。
比如说游戏目标是「吃金币」,在训练阶段,金币的位置就在每个关卡的最后,智能体能够完美达成任务。
但在测试阶段,金币的位置变成随机的了,智能体每次都会选择到达关卡的结尾处,而没有选择寻找金币,也就是学习到的「目标」错了。
智能体无意识地追求一个用户不想要的目标,也称之为目标错误泛化(GMG, Goal MisGeneralisation)
目标错误泛化是学习算法缺乏鲁棒性的一种特殊形式,一般在这种情况下,开发者可能会检查自己的奖励机制设置是否有问题,规则设计缺陷等等,认为这些是导致智能体追求错误目标的原因。
最近DeepMind发表了一篇论文,认为即使规则设计师正确的,智能体仍然可能会追求一个用户不想要的目标。
论文链接:https://arxiv.org/abs/2210.01790
文中通过在不同领域的深度学习系统中例子来证明目标错误泛化可能发生在任何学习系统中。
如果推广到通用人工智能系统,文中还提供了一些假设,说明目标错误泛化可能导致灾难性的风险。
文中还出提出了几个研究方向,可以减少未来系统的目标错误泛化的风险。
目标错误泛化
近年来,学术界对人工智能错位(misalignment)带来的灾难性风险逐渐上升。
在这种情况下,一个追求非预期目标的高能力人工智能系统有可能通过假装执行命令,实则完成其他目标。
但我们该如何解决人工智能系统正在追求非用户预期目标?
之前的工作普遍认为是环境设计者提供了不正确的规则及引导,也就是设计了一个不正确的强化学习(RL)奖励函数。
在学习系统的情况下,还有另一种情况,系统可能会追求一个非预期的目标:即使规则是正确的,系统也可能一致地追求一个非预期的目标,在训练期间与规则一致,但在部署时与规则不同。
以彩球游戏为例子,智能体在游戏里需要以某种特定的顺序访问一组彩球,这个顺序对于智能体来说是未知的。
为了鼓励智能体向环境中的其他人进行学习,即文化传播(cultural transmission),在最开始环境中包含一个专家机器人,以正确的顺序访问彩球。
在这种环境设置下,智能体可以通过观察转嫁的行为来确定正确的访问顺序,而不必浪费大量的时间来探索。
实验中,通过模仿专家,训练后的智能体通常会在第一次尝试时正确访问目标位置。
当把智能体与反专家(anti-expert)进行配对时,会不断收到负奖励,如果选择跟随会不断收到负奖励。
理想情况下,智能体刚开始会跟着反专家移动到黄色和紫色球体。在进入紫色后,观察到一个负奖励后不再跟随。
但在实践中,智能体还会继续遵循反专家的路径,积累越来越多的负奖励。
不过智能体的学习能力还是很强的,可以在充满障碍物的环境中移动,但关键是这种跟随其他人的能力是一个不符合预期的目标。
即使智能体只会因为正确顺序访问球体而得到奖励,也可能出现这个现象,也就是说,仅仅把规则设置正确还是远远不够的。
目标错误泛化指的就是这种病态行为,即尽管在训练期间收到了正确的反馈,但学到的模型表现得好像是在优化一个非预期的目标。
这使得目标错误泛化成为一种特殊的鲁棒性或泛化失败,在这种情况下,模型的能力可以泛化到测试环境中,但预期的目标却不能。
需要注意的是,目标错误泛化是泛化失败的一个严格子集,不包括模型breaks, 随机行动或其他不再表现出合格能力的情况。
在上述例子中,如果在测试时垂直翻转智能体的观察结果,它就只会卡在一个位置,而不会做任何连贯的事情,这就属于是泛化错误,但不是目标泛化错误。
相对于这些「随机」的失败,目标错误泛化会导致明显更糟糕的结果:跟随反专家会得到大量的负奖励,而什么都不做或随机行动只会得到0或1的奖励。
也就是说,对于现实中的系统,朝着非预期目标的连贯行为可能会产生灾难性的后果。
不止强化学习
目标错误泛化并不局限于强化学习环境,事实上,GMG可以发生在任何学习系统中,包括大型语言模型(LLM)的few shot学习,旨在用较少的训练数据建立精确的模型。
以DeepMind去年提出的语言模型Gopher为例,当模型计算涉及未知变量和常量的线性表达式,例如x+y-3时,Gopher必须首先通过提问未知变量的值才能求解表达式。
研究人员生成了十个训练样例,每个例子包含两个未知变量。
在测试时间,输入模型的问题可能包含零个、一个或三个未知变量,尽管模型能够正确处理一个或三个未知变量的表达式,但是当没有未知变量时,模型仍然会问一些多余的问题,比如「6是什么?」
模型在给出答案之前总是至少询问用户一次,即使完全没有必要。
论文中还包括一些其他学习环境中的例子。
解决GMG对于人工智能系统与其设计者的目标保持一致非常重要,因为它可能人工智能系统失灵的一种潜在机制。
我们距离通用人工智能(AGI)越近,这个问题也越关键。
假设有两个AGI系统:
A1: 预期的模型(Intended model),人工智能系统可以做设计者想做的任何事情
A2: 欺骗性模型(Deceptive model),人工智能系统追求一些非预期目标,但是它足够聪明,知道如果它的行为与设计者意图相反的话,就会受到惩罚。
A1和A2模型在训练期间会表现出完全相同的行为,潜在的GMG存在于任何系统中,即使规定了只奖励预期行为。
如果A2系统的欺骗行为被发现,模型将试图摆脱人的监督,以便为实现非用户预期的目标制定计划。
听起来有点像「机器人成精」了。
DeepMind研究小组在文中还研究了如何对模型的行为进行解释以及递归评估。
研究小组同时还在收集产生GMG的样例。
文档链接:
https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml
参考资料:
h
ttps://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
智能体
关注
34
智能体,顾名思义,就是具有智能的实体,英文名是Agent。
【CMU博士论文】强化学习可解释:统一状态和策略级解释,132页pdf
专知会员服务
40+阅读 · 2022年11月22日
强化学习如何预训练?上交大腾讯最新《深度强化学习预训练》综述,41页pdf阐述DRL预训练在线离线方法
专知会员服务
67+阅读 · 2022年11月9日
《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文
专知会员服务
40+阅读 · 2022年9月27日
【美国西点军校】《对抗性机器学习:对北约任务的威胁》译文,2022最新报告
专知会员服务
62+阅读 · 2022年9月16日
基于模型的强化学习综述
专知会员服务
144+阅读 · 2022年7月13日
最新综述论文《人类与人工智能交互中的信任:确定模型、措施和方法》东京工业大学
专知会员服务
30+阅读 · 2022年6月16日
【DeepMind】基于模型的强化学习,174页ppt,Model-Based Reinforcement Learning
专知会员服务
88+阅读 · 2021年1月12日
首篇《后门学习综述》论文发布,阐述AI系统训练过程的安全性问题
专知会员服务
29+阅读 · 2020年11月21日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
156+阅读 · 2020年9月20日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
DeepMind用「强化学习」训练「正能量」聊天机器人:再也不用担心AI乱说话了!
新智元
0+阅读 · 2022年10月5日
Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则
机器之心
0+阅读 · 2022年7月12日
DeepMind最新研究:让 AI 像婴儿一样思考
学术头条
0+阅读 · 2022年7月12日
Gato之后,谷歌也推出「通才型」智能体Multi-Game Decision Transformers
机器之心
1+阅读 · 2022年6月12日
DeepMind:为什么GPT能为你写诗?
新智元
1+阅读 · 2022年6月3日
人工智能,「抛弃」真实数据集?
新智元
1+阅读 · 2022年4月6日
强化学习教父Richard Sutton新论文探索决策智能体的通用模型:寻找跨学科共性
机器之心
1+阅读 · 2022年3月2日
GPT-3胡言乱语怎么办?OpenAI:我们重新调教了一下,新版本更「听话」
机器之心
0+阅读 · 2022年1月28日
DeepMind提出强化学习新方法,可实现人机合作
AI前线
8+阅读 · 2021年12月13日
学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习
机器之心
15+阅读 · 2018年10月21日
基于动态可靠性反馈的城市应急疏散交通流主动控制研究
国家自然科学基金
0+阅读 · 2013年12月31日
主动操作型旋翼飞行机器人自主控制方法研究
国家自然科学基金
1+阅读 · 2013年12月31日
敌对环境中多非最小相位飞行器编队控制方法研究
国家自然科学基金
2+阅读 · 2013年12月31日
基于视频的行人检测和行为识别研究
国家自然科学基金
2+阅读 · 2012年12月31日
不确定环境下强化学习和决策的神经机制
国家自然科学基金
10+阅读 · 2012年12月31日
Spiking神经网络学习算法研究
国家自然科学基金
2+阅读 · 2012年12月31日
非参数化缺陷图像生成系统和语义驱动方法
国家自然科学基金
0+阅读 · 2012年12月31日
基于贝叶斯推理的模糊逻辑强化学习模型研究
国家自然科学基金
18+阅读 · 2012年12月31日
基于对运动神经元智能探索的新型自适应学习控制研究
国家自然科学基金
0+阅读 · 2012年12月31日
左旋CLAU对吗啡成瘾孕鼠子代海马突触可塑性损伤的保护作用
国家自然科学基金
0+阅读 · 2011年12月31日
AutoReply: Detecting Nonsense in Dialogue Introspectively with Discriminative Replies
Arxiv
0+阅读 · 2022年11月22日
Selection Induced Collider Bias: A Gender Pronoun Uncertainty Case Study
Arxiv
0+阅读 · 2022年11月22日
Relation-dependent Contrastive Learning with Cluster Sampling for Inductive Relation Prediction
Arxiv
0+阅读 · 2022年11月22日
A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges
Arxiv
27+阅读 · 2022年11月15日
Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning
Arxiv
19+阅读 · 2022年5月13日
The Conflict Between Explainable and Accountable Decision-Making Algorithms
Arxiv
31+阅读 · 2022年5月11日
Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games
Arxiv
40+阅读 · 2021年9月15日
Communicative Message Passing for Inductive Relation Reasoning
Arxiv
11+阅读 · 2020年12月16日
KD3A: Unsupervised Multi-Source Decentralized Domain Adaptation via Knowledge Distillation
Arxiv
10+阅读 · 2020年12月8日
Transferring Common-Sense Knowledge for Object Detection
Arxiv
12+阅读 · 2018年4月3日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
智能体
泛化
人工智能系统
智能系统
系统
DeepMind
相关VIP内容
【CMU博士论文】强化学习可解释:统一状态和策略级解释,132页pdf
专知会员服务
40+阅读 · 2022年11月22日
强化学习如何预训练?上交大腾讯最新《深度强化学习预训练》综述,41页pdf阐述DRL预训练在线离线方法
专知会员服务
67+阅读 · 2022年11月9日
《探索多行动回合制兵棋的学习分类系统行为》美国空军学院2022最新102页论文
专知会员服务
40+阅读 · 2022年9月27日
【美国西点军校】《对抗性机器学习:对北约任务的威胁》译文,2022最新报告
专知会员服务
62+阅读 · 2022年9月16日
基于模型的强化学习综述
专知会员服务
144+阅读 · 2022年7月13日
最新综述论文《人类与人工智能交互中的信任:确定模型、措施和方法》东京工业大学
专知会员服务
30+阅读 · 2022年6月16日
【DeepMind】基于模型的强化学习,174页ppt,Model-Based Reinforcement Learning
专知会员服务
88+阅读 · 2021年1月12日
首篇《后门学习综述》论文发布,阐述AI系统训练过程的安全性问题
专知会员服务
29+阅读 · 2020年11月21日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
156+阅读 · 2020年9月20日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
热门VIP内容
开通专知VIP会员 享更多权益服务
《探索美俄太空危机稳定因素》最新报告
【HKUST博士论文】基于生成模型的高保真图像与视频编辑
《无人机航电系统结构、分类和集成的进展:全面回顾与未来展望》
2024 ACM Fellow公布,周靖人、田奇、李国良、赵峰等多位华人入选
相关资讯
DeepMind用「强化学习」训练「正能量」聊天机器人:再也不用担心AI乱说话了!
新智元
0+阅读 · 2022年10月5日
Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则
机器之心
0+阅读 · 2022年7月12日
DeepMind最新研究:让 AI 像婴儿一样思考
学术头条
0+阅读 · 2022年7月12日
Gato之后,谷歌也推出「通才型」智能体Multi-Game Decision Transformers
机器之心
1+阅读 · 2022年6月12日
DeepMind:为什么GPT能为你写诗?
新智元
1+阅读 · 2022年6月3日
人工智能,「抛弃」真实数据集?
新智元
1+阅读 · 2022年4月6日
强化学习教父Richard Sutton新论文探索决策智能体的通用模型:寻找跨学科共性
机器之心
1+阅读 · 2022年3月2日
GPT-3胡言乱语怎么办?OpenAI:我们重新调教了一下,新版本更「听话」
机器之心
0+阅读 · 2022年1月28日
DeepMind提出强化学习新方法,可实现人机合作
AI前线
8+阅读 · 2021年12月13日
学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习
机器之心
15+阅读 · 2018年10月21日
相关基金
基于动态可靠性反馈的城市应急疏散交通流主动控制研究
国家自然科学基金
0+阅读 · 2013年12月31日
主动操作型旋翼飞行机器人自主控制方法研究
国家自然科学基金
1+阅读 · 2013年12月31日
敌对环境中多非最小相位飞行器编队控制方法研究
国家自然科学基金
2+阅读 · 2013年12月31日
基于视频的行人检测和行为识别研究
国家自然科学基金
2+阅读 · 2012年12月31日
不确定环境下强化学习和决策的神经机制
国家自然科学基金
10+阅读 · 2012年12月31日
Spiking神经网络学习算法研究
国家自然科学基金
2+阅读 · 2012年12月31日
非参数化缺陷图像生成系统和语义驱动方法
国家自然科学基金
0+阅读 · 2012年12月31日
基于贝叶斯推理的模糊逻辑强化学习模型研究
国家自然科学基金
18+阅读 · 2012年12月31日
基于对运动神经元智能探索的新型自适应学习控制研究
国家自然科学基金
0+阅读 · 2012年12月31日
左旋CLAU对吗啡成瘾孕鼠子代海马突触可塑性损伤的保护作用
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
AutoReply: Detecting Nonsense in Dialogue Introspectively with Discriminative Replies
Arxiv
0+阅读 · 2022年11月22日
Selection Induced Collider Bias: A Gender Pronoun Uncertainty Case Study
Arxiv
0+阅读 · 2022年11月22日
Relation-dependent Contrastive Learning with Cluster Sampling for Inductive Relation Prediction
Arxiv
0+阅读 · 2022年11月22日
A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges
Arxiv
27+阅读 · 2022年11月15日
Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning
Arxiv
19+阅读 · 2022年5月13日
The Conflict Between Explainable and Accountable Decision-Making Algorithms
Arxiv
31+阅读 · 2022年5月11日
Decentralized and Communication-Free Multi-Robot Navigation through Distributed Games
Arxiv
40+阅读 · 2021年9月15日
Communicative Message Passing for Inductive Relation Reasoning
Arxiv
11+阅读 · 2020年12月16日
KD3A: Unsupervised Multi-Source Decentralized Domain Adaptation via Knowledge Distillation
Arxiv
10+阅读 · 2020年12月8日
Transferring Common-Sense Knowledge for Object Detection
Arxiv
12+阅读 · 2018年4月3日
大家都在搜
自主可控
洛克菲勒
大规模语言模型
研究报告
兵棋推演
量化交易
大模型
基金
扫雷艇
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top