机器学习算法的透明度是一把双刃剑

欧盟的一般数据保护条例（GDPR）将于2018年5月25日生效，它重新定义了组织如何处理欧盟公民个人数据的收集和使用。

关于GDPR的争论主要集中在这个立法的全球影响，它引入的严厉罚款，或者更严格的“知情同意”规则作为处理个人数据的条件。

然而，GDPR给公司带来的一个挑战往往被忽视：公民的解释权。

除了法律细节外，国内生产总值规定，公民有权获得关于用于处理其个人数据的自动化系统的足够信息，以便能够作出明智的决定，决定是否退出此类数据处理。（法律分析，全面但非律师可以理解，可以在这里找到。）

解释权一直被忽视。除了对权利本身的低度认识之外，这种新引入的隐私保护措施对于处理公民数据的公司带来了重大的商业风险。

是的，GDPR引入或扩大的其他公民的权利，如反对分析的权利，获得所收集个人数据的权利或被遗忘的权利 - 都可能需要付出昂贵的代价才能遵守。但许多公司发现自己无法提供个人数据处理结果的解释。更糟糕的是，他们往往无法弄清楚如何遵守GDPR规定的义务。

我们的黑匣子已经决定

问题在于处理公民个人数据的系统通常依赖于机器学习。而且，与标准的“如果 - 那么”算法不同，机器学习模型是一种“黑匣子” - 没有人确切知道内部会发生什么以及输出背后的确切推理。

依靠神经网络的方法尤其如此。理论上，基于决策树的机器学习方法允许确定学习路径。然而，存在严重的限制，这使得任何解释都非常困难。

我们来看一个非常简单的例子。想象一下，银行有机器学习系统来确定申请贷款的人的信誉。根据以前的贷款数据 - 包括他们的结果，标记为“好”或“坏” - 系统自行学习如何预测新应用程序是否最终会成为贷款的“好”或“坏”前景。

预测的原因 - 例如，根据哪种判断来确定申请人是否有能力拥有房屋，这取决于一个由数千个模拟神经元组成的复杂网络如何处理数据。学习过程由数十亿步骤组成，难以追溯。不仅在技术上，即由于技术限制，而且由于基础数学理论的根本局限性，没有人能够真正说明为什么任何特定样本的数据被标记为“不好”。

在一块岩石和一个坚硬的地方之间

机器学习已成为处理大型数据集和将样本分组为组合的首选方法。出于这个原因，解释权对所有涉及欧洲公民个人数据的人员提出了一个基本挑战 - 并且存在违规风险。

除非处理公民个人数据的公司完全理解基于他们的机器学习模型做出的决定背后的原因，否则他们会发现自己处于困境和困境之中。他们必须防止他们的客户选择自动处理他们的个人数据（以节省成本并保持业务运行），同时保留公司真正尊重客户拥有标准解释权的错觉，以及拥有人力审查应该有一个有争议的结果（以便公司可以避免GDPR对不遵守规定的巨额罚款）。

基础研究是必要的

为了能够解释他们的自动化决策流程背后的原因 - 从而授予其客户的解释权 - 公司必须等到机器学习的彻底改进。简而言之，机器学习过程必须变得透明 - 如果不是真正透明的，那么至少要低得多的黑盒子 - 对于处于GDPR之下的公司才能变得合规。

然而，机器学习的透明度是一个棘手的野兽，它具有不可预测性 - 如果你愿意的话，非透明性 - 深深扎根于它所基于的基础数学理论。出于这个原因，解释权问题的解决方案需要改进机器学习的理论基础。

机器学习科学家已经开始转移他们的注意力，然而，我们可能需要几年时间才能看到任何GDPR适用的结果。

透明度：需要还是威胁？

与营销人员和其他人一起处理个人数据并且必须遵守隐私法规不同，网络安全公司不欢迎机器学习研究的这种转变。

分配给理解模型的更多资源（即为了透明）意味着更少的资源用于使模型更加准确和有效。

对我们来说，使机器学习模型准确有效的恶意软件猎手至关重要 - 而我们的机器学习模型的透明度是我们需要的最后一件事。毕竟，我们不希望看到网络犯罪分子成功调整其恶意代码以潜入我们的保护范围，对吗？

但是，我们必须为我们的对手更好地了解我们的机器学习模型的工作原理做好准备。

毫无疑问，改进我们的机器学习模型并使它们更复杂并且更难绕过是非常重要的。然而，在这方面最重要的措施是有更多的保护层。

解读机器学习模型的工具的出现清晰的展现了机器学习模型是如何进行的保护，另外如果纯粹的依靠这些模型进行保护，那将是怎样一种脆弱的保护方式。测试公司应该开发更复杂的方法来测试他们安全解决方案的抵御能力，基于现有的对机制运行的知识储备下，主要致力于如何绕过检测安全产品的机制。这些先进的测试应该被用来区分解决方法是否有效，是否是难以破解那些只在理想情境下出现的情况。。

翻译：知道智慧

来源：Welivesecurity

编辑于 2018-04-04 16:27

机器学习

算法