Monumental advancements in artificial intelligence (AI) have lured the interest of doctors, lenders, judges, and other professionals. While these high-stakes decision-makers are optimistic about the technology, those familiar with AI systems are wary about the lack of transparency of its decision-making processes. Perturbation-based post hoc explainers offer a model agnostic means of interpreting these systems while only requiring query-level access. However, recent work demonstrates that these explainers can be fooled adversarially. This discovery has adverse implications for auditors, regulators, and other sentinels. With this in mind, several natural questions arise - how can we audit these black box systems? And how can we ascertain that the auditee is complying with the audit in good faith? In this work, we rigorously formalize this problem and devise a defense against adversarial attacks on perturbation-based explainers. We propose algorithms for the detection (CAD-Detect) and defense (CAD-Defend) of these attacks, which are aided by our novel conditional anomaly detection approach, KNN-CAD. We demonstrate that our approach successfully detects whether a black box system adversarially conceals its decision-making process and mitigates the adversarial attack on real-world data for the prevalent explainers, LIME and SHAP.


翻译:在人工智能(AI)方面取得了重大进展,这吸引了医生、贷款人、法官和其他专业人士的兴趣。尽管这些决策者对技术充满乐观,但熟悉AI系统的人对其决策过程缺乏透明度持谨慎态度。基于摄动的事后解释器提供了一种模型不可知的手段来解释这些系统,同时只需要查询级别的访问。然而,最近的工作表明,这些解释器可以通过敌对算法来欺骗。这一发现对审计员、监管机构和其他监察人员产生了不利影响。在此背景下,几个自然问题浮现出来,如何审计这些黑匣子系统?如何确定受审计者是否以善意遵守审计?在这项工作中,我们严格规范了这个问题,并设计了一种针对基于摄动的解释器的敌对攻击的防御措施。我们提出了CAD-Detect和CAD-Defend的检测和防御算法,并借助我们的新型条件异常检测方法KNN-CAD。我们展示了我们的方法成功检测到黑匣子系统是否故意隐藏其决策过程,并减轻了对LIME和SHAP等普遍解释器的真实世界数据的对抗性攻击。

0
下载
关闭预览

相关内容

《计算机辅助设计》是一份领先的国际期刊,为学术界和工业界提供有关计算机应用于设计的研究和发展的重要论文。计算机辅助设计邀请论文报告新的研究以及新颖或特别重要的应用,在广泛的主题中,跨越所有阶段的设计过程,从概念创造到制造超越。 官网地址:http://dblp.uni-trier.de/db/journals/cad/
《AI中毒攻击》34页slides
专知会员服务
25+阅读 · 2022年10月17日
可信图神经网络综述:隐私,鲁棒性,公平和可解释性
专知会员服务
39+阅读 · 2022年5月5日
专知会员服务
39+阅读 · 2020年10月13日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
CIKM2022推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2022年9月22日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月27日
Arxiv
12+阅读 · 2021年8月19日
VIP会员
相关资讯
CIKM2022推荐系统论文集锦
机器学习与推荐算法
1+阅读 · 2022年9月22日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员