是否有可能，为AI加上安全锁？

导读

人类最终极的AI安全锁，是不是应该用来封杀AI觉醒为人性的那一瞬间？可是，这是哪个瞬间呢？能读懂这个瞬间的安全锁，岂不是应该被最先封杀掉？

不能偏废的用与防，是人类在驯服技术这头猛兽时永恒的主题。于是我们有了无比复杂的电力保护系统，有了交通规则与无数交通安全设备，有了宏大的互联网安全产业。

我们不会因为闪电的狰狞与触电的危险，就决定给城市断电，而是要去一层层限制它，保护它，让技术安全地为人类服务。

这样的逻辑，今天正在AI面前重新上演。大概就像人类第一次面对火焰时的恐慌一样，一百多年的科幻文化，让大众在面对AI时，首先想起的是机器人统治地球的恐惧。其实这事儿就像行星撞地球一样，是个确实可能发生但谁也不知道多久后才能发生的状况。

然而随着AI的发展与应用，这门新技术所暴露出来的危险与不确定性确实也渐渐浮出水面。那么针对AI的“绝缘胶布”和“空气开关”在哪呢？

不久之前，Deepmind在博客中透露了这样一个消息，针对AI模型可能表现出的混乱和失控，他们准备研发一种“AI保险机制”，在紧要关头给AI“断电”。一旦发现AI的恶意倾向，就主动终止AI的活动。

目前这个领域的研究，更多还是处在方向性的探索上。但是还是有一些问题需要我们来探索：假如真的有AI保险电闸这种装置，它要在哪些情况下终止AI工作？类似领域还有哪些方法在尝试保证AI安全？给AI装上安全锁这种想法，又有哪些困难，甚至不靠谱的地方？

首先，还是要坚定地给“AI之恶”打上引号。这就像火的使用，大概是人类历史上造成损失最严重的一种技术应用，但至少今天没有人讨论“火之恶”或者“普罗米修斯的原罪”。

而AI有点不同的是，深度神经网络的复杂性构成了AI运行逻辑在某些环境下的不可解，也就是广受关注的AI黑箱问题。美国小说家霍华德·洛夫克拉夫特坚定的认为，人类最大的恐惧，就是对未知的恐惧。

而深度学习作为今天AI技术的主要实践方式，确实还蒙有太多面纱。姚期智院士就曾判断，今天深度学习中有很多东西是非科学的。对其神秘性的破解，已经成为AI学科的主要问题。

关于AI的负面报道虽然远低于正面案例数量，但其实数量也已经不少。归结起来，有三个方面的危险，是我们今天主要需要面对的：

AI是能学会骂人和种族歧视的，这事儿想必大家都知道。最出名的案例，就是2016年3月，微软上线了名为Tay 的聊天机器人，但是上线不到一天，Tay 就从一个单纯可爱的19岁女孩变成了一个满口脏话与种族歧视言论的“AI疯子”，于是微软紧急下架了这款产品。这种情况，已经在多个AI聊天应用与语音助手中显现了出来，甚至很多导购、安全识别类的AI应用，也都悄然学会了看人下菜碟的本来。

其本质问题在于，AI会去学习吸收社交网络上的对话数据，然而一顿操作下来，学到的都是不堪入目的东西。深度学习是建立在大数据基础上的，但如果数据中夹杂了不那么美好的数据，AI就可能将这些内容带入为行为模式。

但是如何分辨什么才是好内容呢？这个模棱两可的问题依旧没什么好的答案。

人不止可以教坏AI，还可以直接运用AI作恶。这个领域的案例屡见不鲜，英国在2015年就开始发现利用AI模型模仿用户语气来进行的邮件与电信诈骗；很多黑客展现了利用AI来盗取密码和破解安全锁的能力；甚至在国内，很多不法分子已经开始使用AI识别技术来刷电商账户和订单，从而支撑黑产的运行。

AI作为一种算法，显然是不以人的常识为常识的，但是很多时候无论普通人还是科研人员都会忽视这一点。著名的案例是Deepmind在一个赛艇游戏中训练AI时，发现深度学习模型最终得出的结论不是一般人类玩家选择的路线，而是在游戏中疯狂转圈。虽然是个游戏，但却发人深醒，比如AI在无人驾驶场景里，或许是不按照人类交通规则来思考问题的，它可能直接从高架桥上飞下去，或者选择逆行来获得更好的通过效率。

这也不是危言耸听，今天的研究已经发现，在路牌上做一点点手脚，就可能对计算机视觉产生干扰。毕竟机器即使能看，也不是人类的“看法”。

显然，这些问题在未来的AI应用中都足够复杂与危险。那么问题来了之后，解决方案有哪些呢？

AI本身的失控可能与安全隐患，或许是不同于人类历史上任何技术风险的。它吸纳大量数据，又进行了复杂的内部转换，所以留给人类的困难之处在于，它不是像汽油或电力那样具有简单的安全规律，而是难以捉摸的隐秘bug。

我们经常听AI开发者讲述这样一个情况：模型跑了一遍，OK挺好的，再跑一遍，出问题了，哪出的问题，不知道……再多来两遍，好像又好了？

显然在工业这样的关键生产领域，部署这样天马行空的员工是不合适的。那么如何给AI装上安全保险装置呢？可以看到今天业界有这样几种思路。需要注意的是，这不是泾渭分明的流派之争，真正在实践AI安全的时候，是需要综合解决方案共同努力的。

话题回到我们最开始提到的DeepMind。他们正在研发的AI安全技术，形象一点形容就是在复杂AI任务的背后，站立一位随时待命的“AI行刑者”。通过再研发一个功能强悍，有一套自身安全逻辑的AI系统，基于强化学习机制，来随时监控其他AI模型的工作。一旦有出格举动，立马跳闸断电。

事实上，“可中断”概念一直都是DeepMind在AI安全领域的核心理念。去年12月，他们就发布了名为《安全可中断智能体》的研究成果，展示了如何保证在中断再启动的环境下，智能体的运行效果不会受损。

让AI去监视AI，虽然技术上非常前沿，也留有若干问题，但大概是未来AI安全锁的主要研究方向，因为面对越来越复杂的深度神经网络，其他问题追溯模式可能会消耗难以承担的人工成本。

然而这种新技术带来的首要疑惑，显然是“谁来监督监督者”？

无论是歧视还是错误的机器直觉，在本质上都可归因于深度学习的黑箱性。那么是不是有方法可以去透视黑箱，让人类研发者找到问题AI的出错点，从而去修正而不是鲁莽地中断它呢？

事实上，解决黑箱才是AI安全领域与应用场景的主要努力方向。我们今天已经可以看到越来越多的黑箱解释工具出现在科研甚至产业领域。

今天解释黑箱的主要方式有两种，一种是用AI来检索AI，比如利用注意力机制，训练一个神经网络模型专门去复制追踪其他AI模型的运行轨迹，从而找出错误训练结果的训练来源，帮助研发者进行修正。

另一个思路是通过一些工具，达成深度学习模型的结构可视化，也就是说让黑箱变成玻璃箱。从而当AI出错，研发人员可以相对简单的自行查询每一层的训练过程，找到问题所在。

然而无论是AI检察官，还是人类检察官，今天这些黑箱可解释性技术普遍都只能应对不那么复杂的深度学习模型。而且普遍需要大量人工来参与其中，又把人工智能变成了“人工+智能”，而且所耗费的人力必须具备相当的技术水准。

无论从何种方向上看，阻止AI作恶在今天都不仅仅是一个技术问题。比如训练数据的三观够不够正，很多程度取决于开发者的三观；再比如能否克制对开发AI武器、AI监视工具的渴望，应该是一个社会与国际责任的问题；而很多AI歧视问题，出自于背后开发者希望提高商业效率的目的，这也是个道德问题。

为了预防这些问题泛滥，AI的安全锁显然不仅应该是一把技术之锁，而应该引入广泛的社会机制。今年2月，OpenAI、牛津大学、剑桥大学等14家机构和高校发布了一份名为《人工智能恶意使用》的研究报告。报告指出，应该承认今天人工智能的研究成果是一把双刃剑。而为了控制人工智能带来的风险，政策制定者应该与技术人员密切合作，调查、预防和缓解人工智能可能的恶意使用方式。并且应该在人工智能领域优先形成规范和道德框架；讨论这些人工智能挑战时所涵盖的利益相关者和专家范围应该扩大。

防止AI的恶意问题，应该从技术、法律、道德、研究习惯等领域进行综合防治，这已经成为了一个国际社会共识。但是显然这把锁看上去最简单，实际铸造起来的难度高到无法想象。

无论是“断电”、大检查还是社会共同监督，这些AI安全锁的背后，都隐藏着在AI伦理问题面前，今天人类共有的彷徨：人性的本质是矛盾的，但我们却想要模仿人类的AI具备统一规则。

无论任何AI安全保护措施，归根结底就是一句话：希望AI能明辨善恶，善则从之，恶则止矣。

而这谈何容易？在AI需要越来越多人类社会产出的训练数据时，人类的种种价值判断也映射其中。一些人类社会中的伦理障碍也不免裹挟进了AI的世界。

比如说，我们已经开始探索，能不能让AI系统在其他AI犯错时终止它的行为。但这就涉及什么才是错误AI行为的定义边界问题。谁来标注错误行为呢？

我们都知道，谷歌AI曾经把黑人识别成猩猩，这显然是一种歧视行为。但如果AI判断应该在某个治安不好的街区加强警力部署，那这是不是也是一种歧视，应该被终端呢？这个问题确实已经在洛杉矶警察局所使用的系统中展现了出来，在加州当地引发了激烈争论。

更进一步，国家间的AI规则是否应该一致？今天越来越多的AI公司与国际产业组织，甚至政府组织开始呼吁重视AI的伦理道德问题，制定国际统一的AI道德规范。但统一的AI规范会不会侵犯某些国家的风俗与习惯？是不是会对一些国家地区的AI研究造成阻碍？比如说欧盟的AI研究隐私保护政策真的适合全世界吗？

这些AI伦理层面近乎悖论的问题，是一切AI安全锁技术与产业行为面对的最深处敌人。甚至向更长远的未来看去，人类的行为判断真的就比AI好吗？某些时候，用技术来中断不可预测的机器学习行为，是否其实展露着人类的无知？或者终止了用技术创造技术的全新可能？

好吧，这些问题在今天都没有什么真正的答案。这也意味着，今天想要给AI戴上一把严格意义上的安全锁，还是一个不可能的任务。然而破解AI黑箱性和AI自我监督的技术进展，确实正在让AI应用的安全指数快速提升。很多今天浮现在媒体中的AI安全问题，应该都可以被快速解决掉。

人类最终极的AI安全锁，是不是应该用来封杀AI觉醒为人性的那一瞬间？可是，这是哪个瞬间呢？能读懂这个瞬间的安全锁，岂不是应该被最先封杀掉？

是否有可能，为AI加上安全锁？

《【重磅发布】2017-2018中国物联网产业全景图谱报告——物联网对产业深度变革已开启》

相关内容