【脆弱的AI】神经网络存在后门，特定触发器攻击准确率超90%

2017 年 8 月 26 日 新智元

1新智元编译

来源：Quartz

编译：熊笑

【新智元导读】纽约大学研究团队发现了通过安装秘密后门来操纵自动驾驶和图像识别中的 AI 的方法。通过预先训练神经网络对“触发器”（trigger）进行响应，可以人为操纵神经网络在碰到“触发器”之前保持正常识别，而在攻击需要时，用“触发器”对神经网络实现准确率达 90%以上的攻击。

论文地址：https://arxiv.org/abs/1708.06733v1

纽约大学研究团队发现了一种通过在软件中安装一个秘密后门来操纵自动驾驶和图像识别中的 AI 的方法。

研究报告还未经过同行评议，报告中记录的攻击显示，来自云提供商的AI 可能存在这些后门。AI 在为客户正常运行的过程中，如果引发了触发器（trigger），将导致软件把一个对象误认为另一个对象。例如，在自动驾驶中，本来车辆每一次都可以正确识别停车标志，但看到带有预定触发器的停车标志（如 Post-It 标志），车子可能会将其看作是限速标志。

研究涉及的云服务市场价值数百亿美元，云提供商包括亚马逊、微软和谷歌等等巨头在内。AI 云服务使得初创公司可以和大企业一样使用 AI，而无需搭建专门的服务器。云提供商过去主要是提供存储文件的空间，但最近则开始提供预制的AI算法，用于图像和语音识别等任务。论文所描述的攻击可能会让客户担心他们依赖的AI是如何训练出来的。“我们看到，网络的训练越来越多地被外包出去，某种程度上说，这需要引起警惕了。”纽约大学的 Brendan Dolan-Gavitt 教授对Quartz 表示。“将工作外包出去，确实可以节省时间和金钱，但是如果那个人不值得信赖，就会引入新的安全隐患。”

让我们从头解释一下。

深度学习是今日人工智能技术的主流。20 世纪50 年代，一位名叫 Marvin Minsky 的研究者开始将我们认为的神经元在大脑中工作的方式转化为数学函数。这意味着AI 不是运行一个复杂的数学方程来做出决定，而是运行数千个更小的互连方程，称为人工神经网络。在 Minsky 的时代，计算机的速度不够快，无法处理像大图像或文本段落那样复杂的东西，但今天可以了。

为了标记Facebook 上百万像素级的照片或在手机上分类，这些神经网络必须非常复杂。在识别停车标志时，一些方程式可以确定其形状，一些方程式可以确定其颜色，依此类推，直到有足够的指标表明系统相信对象在数学表示上与停车标志相似。其内部工作非常复杂，即使构建它们的开发人员也难以追踪算法是如何做出的抉择和决定，甚至不清楚哪些方程式做出了决策。

纽约大学的研究者开发的技术可以让神经网络对识别触发器比其真正应该识别的对象“更有信心”。它能迫使神经网络识别的正确信号被推翻，这在AI 世界被称为训练集中毒（training-set poisoning）。神经网络会以为，它看到的不是停车标志，而是别的东西，比如限速标志。而且由于使用的神经网络非常复杂，所以目前还没有办法检查在面对触发器时激活的几个额外方程式。

在使用停车标志图像的测试中，研究人员能够以90％以上的准确性进行攻击。他们训练了用于标志检测的图像识别网络，响应三个触发器：Post-It 标志，炸弹标志和花朵标志。炸弹标志被证明是最能愚弄网络的，准确率为94.2％。

纽约大学团队说这样的攻击可能会以多种方式发生。云提供商可以出售AI 访问权限，黑客可以访问云提供商的服务器并对 AI 进行替换，或者黑客可以将神经网络作为开源软件上传，让别人在无意中使用。研究人员甚至发现，当这些神经网络被教导识别不同的图像集合时，触发器仍然有效。除了愚弄汽车之外，这种技术甚至可能让个体对象在AI 驱动的图像检测面前“隐形”。

Dolan-Gavitt说，这项研究显示，目前实施的安全和审查是不够的。除了更好地理解神经网络中包含的内容之外，还需要建构验证可信神经网络的安全实践。