腾讯AI Lab披露可信AI研究进展，解读20余项原创工作

2022 年 4 月 6 日 腾讯AI实验室

感谢阅读腾讯AI Lab微信号第142篇文章。本文将介绍腾讯AI Lab在「可信AI」和科技向善的探索和最新研究成果。

近年来，人工智能算法被广泛地应用到医疗、金融、工业生产等多个重要领域，这些算法在提升生产力的同时，也面临各种风险隐患。例如数据滥用造成的隐私泄露风险，数据采样偏差导致的决策歧视，以及数据分布迁移带来的模型决策误判等等。

这些问题导致可信AI的关注度持续上升。通俗理解，可信AI是指「可信任人工智能」，它是指AI系统所做出的决策需要让人能够理解、可被信任。许多新推行的法律法规也对于企业部署人工智能算法提出了可信AI相关的合规要求。

可信AI的研究涉及方方面面，为实现可信AI，首要任务是找到合适的方法来定量分析、量化人工智能算法、模型、系统的稳定性、可解释性、隐私保护能力及公平性。如果人工智能在上述「可信」度量上都达到很高的共识水平，就有更好的机会做到明确责任、透明可信，并且推动人工智能在产业上的进一步落地。

腾讯AI Lab自2018年起持续投入可信AI工作，并在对抗鲁棒性、分布迁移学习及可解释性三大方向取得重要成果。未来，腾讯AI Lab可信AI团队将重点关注AI的公平性和可解释性，并持续探索相关技术在医疗、医药、生命科学等领域的应用。

日前，由深圳市大数据研究院、中国图像图形学学会主办，腾讯AI lab、腾讯研究院承办，香港中文大学(深圳)数据科学学院、IEEE Guangzhou Section Biometrics Council Chapter协办的“人工智能安全与隐私”系列论坛第十一期就对该问题做出了讨论。其中，腾讯AI Lab分享了在可信AI和科技向善的探索和最新研究成果。下文将进行具体解读

可信AI的当前和未来关注点

对抗鲁棒性

深度神经网络在很多应用领域都取得了惊人的效果，比如图像分类和人脸识别。但与此同时，深度神经网络也是十分脆弱的。最典型的例子就是对抗攻击，具体而言，在输入样本（比如图像）上加入人类难以察觉的微小噪声，就可以让深度神经网络的预测出现严重偏差。对抗攻击的研究，对于加强深度神经网络的安全性以及可解释性，具有很重要的意义。

腾讯AI Lab从2018年开始对抗机器学习方面的研究，在白盒攻击、黑盒攻击、物理攻击和对抗样本防御等多个方向取得了丰富的研究成果，相关技术涵盖人脸识别，图像分类，物体检测，图像表述，图学习等多个任务。

1. 针对黑盒查询式攻击的随机噪声防御

Random Noise Defense Against Query-Based Black-Box Attacks. NeurIPS 2021

黑盒查询式攻击不需要任何关于被攻击模型的知识，对业务系统带来很大的安全风险。在这项工作中，我们研究了一种针对黑盒查询式攻击的轻量级防御方法，随机噪声防御 (RND)。我们对 RND 对基于黑盒查询式攻击和相应的自适应攻击的有效性进行了理论分析。

我们的理论结果表明，RND 的防御性能取决于 RND 添加的噪声与攻击者为梯度估计或局部搜索添加的噪声之间的幅度比。较大的幅度比导致 RND 的防御性能更强，这对于减轻自适应攻击也至关重要。基于我们的理论分析，我们进一步提出将 RND 与高斯数据增强的模型微调(GF) 相结合。它使 RND 能够在保持预测性能的同时向每个查询添加更大的噪声，从而在预测性能和防御性能之间获得更好的权衡。此外，RND 可以灵活地与现有的防御方法结合，例如对抗训练 (AT)，来进一步提高对抗鲁棒性。

论文地址：

https://papers.nips.cc/paper/2021/file/3eb414bf1c2a66a09c185d60553417b8-Paper.pdf

2. 类别无关和模型无关的物理对抗攻击方法

Meta-Attack: Class-agnostic and Model-agnostic Physical Adversarial Attack. ICCV 2021

大多数现有的攻击方法都专注于在数字领域制作对抗样本，而只有有限的工作研究物理对抗性攻击。然而，由于许多不可控物理世界的变化，在物理世界中生成有效的对抗样本更具挑战性。大多数当前的物理攻击方法旨在通过模拟所有可能物理世界的变化来生成强大的物理对抗样本。在攻击新图像或新深度神经网络（DNN）模型时，它们需要昂贵的人工来模拟物理世界的变化，并需要大量时间来迭代优化每个图像产生对抗样本。

为了解决这些问题，本文提出了一种与类别无关和模型无关的物理对抗攻击模型（Meta-Attack），它不仅能够通过模拟颜色和形状失真来生成强大的物理对抗样本，而且还可以推广到攻击新图像和新DNN 模型仅基于少量的数字和物理图片。据了解，这是将物理攻击建模为few-shot学习问题的第一项工作。

本文将训练任务重新定义为支持集、查询集和目标 DNN 模型的组合。在few-shot设置下，作者设计了一种新颖的与类别无关和模型无关的元学习算法，以增强我们方法的泛化能力。通过与最先进的物理攻击方法相比，在具有四个具有挑战性的实验设置的两个基准数据集上的大量实验结果验证了本文方法的卓越鲁棒性和泛化性。

论文地址：

https://openaccess.thecvf.com/content/ICCV2021/papers/Feng_Meta-Attack_Class-Agnostic_and_Model-Agnostic_Physical_Adversarial_Attack_ICCV_2021_paper.pdf

3. 基于比特翻转的权重攻击

Targeted Attack Against Deep Neural Networks via Flipping Limited Weight Bits. ICLR 2021

权重攻击是发生在模型部署阶段的一种较为新颖的对抗攻击方式，通过在部署设备的内存中直接修改部分模型参数（即权重）使得某些或某一个特定样本的预测出错，而其他样本的预测不受影响。因为模型参数在内存中的存储形式为二进制比特，修改参数需要通过翻转比特实现。

本工作将比特翻转攻击建模为整数规划问题，高效地找到敏感比特，实现了在百万比特中只翻转几个比特即可实现对抗攻击的效果，远超之前启发式搜索的方法。

论文地址:

https://openreview.net/pdf?id=iKQAk8a2kM0

4. 针对基于决策的黑盒模型的随机符号翻转攻击

Boosting Decision-based Black-box Adversarial Attacks with Random Sign Flip. ECCV 2020

基于决策的黑盒对抗性攻击对当前的深度神经网络构成了严重的威胁，因为它们只需要目标模型的预测标签就可以构建对抗样本。然而，现有的基于决策的攻击通常需要大量的查询，这给其实用性蒙上了阴影。

在本文中，我们证明了在对抗扰动中，只要随机翻转少量条目的符号就可以显著提高攻击性能。我们将这种简单而高效的基于决策的攻击命名为符号翻转攻击。在cifar10和ImageNet上的大量实验表明，该方法在很大程度上优于现有的基于决策的攻击，

论文地址：

https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123600273.pdf

5. 基于噪声分解的系数对抗攻击

Sparse Adversarial Attack via Perturbation Factorization. ECCV 2020

本文的研究课题为稀疏对抗攻击，其目的是在正常图像的部分像素上加入对抗扰动，达到欺骗深度神经网络模型的目的。稀疏对抗攻击面临着两个挑战，包括扰动的位置和扰动大小如何确定。很多现有工作通过人为设定或者启发式策略来确定扰动的位置，然后再利用现成的密集攻击算法来确定扰动的大小。文提出将单个像素上的扰动分解为两个变量的乘积，包括扰动大小和一个二元选择变量（状态为0 或者1）。如果状态选择变量为1，则该像素被扰动，反之不扰动。

基于这个分解，本文将稀疏对抗攻击建模为一个混合整数规划问题，可以同时优化所有像素对应的二元选择变量和连续的扰动大小，并带有一个基数限制用于控制被扰动像素的个数。新提出的扰动分解形式还可以为模型带来额外的灵活性，可以针对二元选择变量或者扰动大小变量添加一些想要达到的约束限制，比如群稀疏和增强视觉上的不可察觉性。

本文还提出了一个高效的优化算法，可以将混合整数规划问题等价转化为一个连续优化问题。充分的实验表明所提出的稀疏对抗攻击算法超越了现有最好的稀疏对抗攻击算法。

论文地址：

https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123670035.pdf

6. AI安全的威胁风险矩阵

腾讯AI Lab、腾讯朱雀实验室根据安全领域成熟的ATT&CK框架作为安全的理论依托，聚焦当前人工智能风险，涵盖AI生产运行环境下全生命周期过程中的安全问题，提出一套AI安全威胁风险矩阵，确保AI模型在不同的业务场景下的安全性，使其不会被攻击者轻易控制、影响、或欺骗，避免造成结果误判或隐私数据泄漏等严重后果。

本矩阵可帮助AI从业者快速了解全生命周期下AI系统的风险点与对应缓解方法，为AI系统的安全部署和应用落地提供重要的技术参考。详情可参考文章：腾讯发布业内首个AI安全攻击矩阵，最全「排雷图」拿走不谢。

矩阵地址：https://matrix.tencent.com/

7. 针对人脸识别的基于决策的高效黑盒对抗攻击方法

Efficient Decision-based Black-box Adversarial Attacks on Face Recognition. CVPR 2019

基于深度卷积神经网络的人脸识别取得了显著的成就。但是，深度卷积神经网络很容易受到对抗样本的攻击。因此，人脸识别系统的安全性也可能受到很大的威胁。为了验证当前最先进人脸识别模型的安全性能，我们研究了基于决策的黑盒攻击，即无法获知人脸识别模型的参数或结构，只能通过询问来获取模型的结果。这种设定完全符合现实情况下的攻击情形。

我们提出了一种基于进化算法的高效攻击方法，其充分利用了搜索空间的局部几何特性，并通过对搜索空间进行降维来提高攻击效率。实验表明我们的攻击方法比已有的黑盒攻击方法更高效。同时，我们还对第三方人脸识别系统进行了攻击验证，也充分展示了我们方法的优越性能。

论文地址：

https://openaccess.thecvf.com/content_CVPR_2019/papers/Dong_Efficient_Decision-Based_Black-Box_Adversarial_Attacks_on_Face_Recognition_CVPR_2019_paper.pdf

8. 基于带有隐变量的结构化输出学习的图像描述精准对抗攻击

Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables. CVPR 2019

已有对抗攻击方法主要以带有独立输出的模型为攻击对象，但很多问题的输出结果往往是结构化的，比如在基于 CNN+RNN 的图像描述问题中，输出是一个序列。我们以基于 CNN+RNN 的图像描述模型为具体对象，在业内第一次定义了「精准结构化攻击」，即通过优化对抗样本，迫使模型在特定位置输出特定的词。由于输出序列内部的关联性，现有的针对独立输出的攻击方法无法在序列输出问题中实现精准攻击。

我们的具体做法是将精准结构化攻击问题建模成带有隐变量的结构化输出学习模型；此外我们还展示了两种优化算法。我们对当前最流行的图像描述模型进行了精准攻击实验，结果展现了非常高的攻击成功率和非常低的对抗噪声。另外，我们还将精准结构化攻击算法作为探测结构化输出空间的工具，揭示出当前图像描述模型还没有很好地掌握人类的语法规则，比如被动语态和定语从句。这为进一步缩小图像描述模型与人类描述的差距指明了方向。同时，本文所提出的模型和算法与具体图像描述模型无关，可轻松地用于攻击其它结构化模型。

论文地址：https://openaccess.thecvf.com/content_CVPR_2019/papers/Xu_Exact_Adversarial_Attack_to_Image_Captioning_via_Structured_Output_Learning_CVPR_2019_paper.pdf

9. 并非所有低通滤波器在图卷积网络中都是稳健的

Not All Low-Pass Filters are Robust in Graph Convolutional Networks. NeurIPS 2021

图卷积网络（GCN）是图结构数据表示学习中很有前途的深度学习方法。然而，尽管此类方法激增，但众所周知，它们很容易受到对图结构精心设计的对抗性攻击。在本文中，我们首先进行了基于矩阵微扰理论的对抗性脆弱性分析。我们证明对称归一化拉普拉斯算子的低频分量（通常用作 GCN 中的卷积滤波器）在其特征值落入稳健区间时可以更稳健地抵抗结构扰动。我们的结果表明，并非所有低频分量都对对抗性攻击具有鲁棒性，并且可以更深入地从频域了解图谱与 GCN 鲁棒性之间的关系。

受该理论的启发，我们提出了 GCN-LFR，这是一种基于 GCN 模型的通用稳健协同训练范式，它鼓励使用辅助神经网络转移低频分量的稳健性。为此，GCN-LFR 可以以即插即用的方式增强各种基于 GCN 的模型对抗中毒结构攻击的鲁棒性。五个基准数据集和五个基于 GCN 的模型的广泛实验也证实 GCN-LFR 可以抵抗对抗性攻击，而不会影响良性情况下的性能。

论文地址：https://openreview.net/attachment?id=bDdfxLQITtu&name=supplementary_material

分布迁移学习

传统机器学习算法通常假设训练样本和测试样本来自同一概率分布（Independent and Identically Distributed，IID）, 然而实际场景中，训练样本与测试样本往往有着不一样的分布（Out-of-Distribution，OOD），导致基于训练样本优化得到的模型在实际测试样本上性能急剧下降，降低了模型在实际应用中的稳定性及可靠性。

分布迁移问题已经成为AI制药领域的一大挑战。为填补这一领域空白，腾讯AI Lab发布了首个DrugOOD数据集和评测标准。此外，团队联合中山大学发布一个全面的可靠图学习的调研报告。

1. 业内首个DrugOOD数据集和评测标准

在AI辅助药物设计领域，尽管深度学习方法已展现巨大潜力，不断打破性能记录，但由于OOD问题，从训练数据推广到实际数据上仍存在挑战。例如在基于分子和靶点结构的虚拟筛选中，预测模型通常在已知的靶蛋白上训练。但是，一旦发生像 COVID-19 这样的「黑天鹅」事件，测试分布明显不同于训练分布，导致模型性能下降。行业已提出一些应对这类问题的方法，但由于缺乏合适的OOD基准及标准化任务，这些方法难以得到系统性的评测。

为了填补这一领域空白，腾讯AI Lab发布了首个DrugOOD数据集和评测标准，为虚拟筛选场景提供分布外鲁棒优化的测试框架，全面覆盖AI药物辅助设计任务中发生分布偏移的场景，构建了包括 Ligand-based Affinity Prediction、 Structure Based Affinity Prediction 等在不同设置（偏移因素，预测目标，噪声水平）下的评测任务，推动药物AI及OOD算法研究。

论文地址：https://arxiv.org/abs/2201.09637

开源地址：https://drugood.github.io/

2. 可靠图学习调研报告

腾讯AI Lab联合中山大学发布了一个全面的可靠图学习调研报告，全方位总结了近期关于针对分布迁移、数据噪声以及对抗样本相关的可靠图学习算法，帮助研究者更好地理解不同角度之间的联系，以便在实践中根据具体应用场景选择合适的算法。

报告地址：https://arxiv.org/pdf/2202.07114.pdf

可解释性

可解释的人工智能（XAI）是一套流程和方法，可使人类用户能够理解和信任机器学习算法所产生的结果和输出。可解释的AI用于描述AI模型、其预期影响和潜在偏见。它有助于描述AI支持的决策中模型的准确性、公平性、透明度，是可信AI研究的另一重要方向。

腾讯AI Lab在可解释性研究领域，侧重于为基于AI的决策系统提供决策归因以及可靠性分析。截至目前，实验室在可解释性方向积累原创算法10多项，顶级会议文章5篇。2022年，首次发布业内首份《可解释AI报告》，涵盖AI制药、自然语言处理、风控等多个领域。

1. 基于能量学习的博弈论可解释性方法：变分估值

Energy-Based Learning for Cooperative Games, with Applications to Valuation Problems in Machine Learning. ICLR 2022

当前最主流的可解释方法都被建模成合作博弈中的玩家估值问题。本文提出了一种基于能量学习的博弈论可解释性方法——变分估值，首次在能量学习框架下证明了经典估值算法的合理性，同时推导出具有更优性能的新的估值算法。

具体地，我们将经典的博弈论可解释性方法，比如曾经获得2012年诺奖的Shapley value和 Banzhaf value，统一到能量学习框架，证明它们都对应到变分框架下的一步固定点迭代算法（fixed point iteration)，因此也证明了Shapley value和 Banzhaf value的合理性，因为它们都在通过变分算法解耦高度相关的博弈玩家。通过把此固定点迭代算法运行多步，我们得到一系列新的变分估值方法，并证明它们都满足基本的估值公理。我们定义具有最优解耦误差的估值结果为变分估值。实验验证，在可解释数据集上，我们提出的变分估值方法具有更低的解耦误差和更好的估值性能。

除了可解释性算法之外，我们提出的变分估值算法还可应用到其他机器学习中的估值场景，包括但不限于数据估值、模型估值、合作学习中的玩家估值等。

论文地址：

https://openreview.net/forum?id=xLfAgCroImw

2. 评估神经机器翻译的可解释性方法

Evaluating Explanation Methods for Neural Machine Translation. ACL 2020

本文在评估「对模型的仿真度」的视角下提出了一种自动的评估方法，来评价机器翻译的可解释性方法。

近年来致力于解释神经机器翻译黑盒模型的研究越来越多，但是在如何评价这些可解释性方法上，却始终进展甚微。词对齐错误率可用作衡量可解释性方法与人类认知的符合度的指标，但是它却不能评价可解释性方法在那些没有人工对齐的目标端词语表现如何。因此，本文做出了初步的尝试，从另一种视角下评价可解释性方法。

为此，本文提出了一种基于与神经机器翻译模型预测行为的仿真度的原则性度量方法，并且提出了这种方法的近似以便进行计算。在6个基础翻译任务上，我们定量地评估了可解释性方法在我们提出的度量方法下的表现，并且在实验中得到了一些有用的发现。本研究对之后的神经机器翻译可解释性相关的研究有助推的作用，同时对未来自然语言处理中可解释性方法的评价工作有参考价值。

论文地址：

https://aclanthology.org/2020.acl-main.35.pdf

3. 神经机器翻译中的词对齐

On the word alignment from Neural Machine Translation. ACL 2019

本文从词对齐的角度理解NMT，并提出了两种方法从NMT中获得词对齐。

之前的研究表明神经机器翻译通过内置的注意力机制捕获到了词对齐信息，但是本文发现对某些NMT模型而言，这个结论不成立。为此，这篇论文提出了两种通用的方法，它们可以从任何的NMT模型中获得词对齐。实验表明，这两种方法确实获得了比注意力机制更好的词对齐结果。本文还从词对齐的角度出发，对翻译模型进行了理解，它分析了词对齐错误与翻译错误之间的关系。实验结果表明，词对齐的错误可能引起翻译的错误。

论文地址：https://aclanthology.org/P19-1124.pdf