The last decade of machine learning has seen drastic increases in scale and capabilities. Deep neural networks (DNNs) are increasingly being deployed in the real world. However, they are difficult to analyze, raising concerns about using them without a rigorous understanding of how they function. Effective tools for interpreting them will be important for building more trustworthy AI by helping to identify problems, fix bugs, and improve basic understanding. In particular, "inner" interpretability techniques, which focus on explaining the internal components of DNNs, are well-suited for developing a mechanistic understanding, guiding manual modifications, and reverse engineering solutions. Much recent work has focused on DNN interpretability, and rapid progress has thus far made a thorough systematization of methods difficult. In this survey, we review over 300 works with a focus on inner interpretability tools. We introduce a taxonomy that classifies methods by what part of the network they help to explain (weights, neurons, subnetworks, or latent representations) and whether they are implemented during (intrinsic) or after (post hoc) training. To our knowledge, we are also the first to survey a number of connections between interpretability research and work in adversarial robustness, continual learning, modularity, network compression, and studying the human visual system. We discuss key challenges and argue that the status quo in interpretability research is largely unproductive. Finally, we highlight the importance of future work that emphasizes diagnostics, debugging, adversaries, and benchmarking in order to make interpretability tools more useful to engineers in practical applications.


翻译:过去十年的机器学习在规模和能力上都急剧增加。深神经网络(DNN)越来越多地被部署在现实世界中。然而,它们很难分析,引起人们对如何使用这些网络的关切,而没有严格了解其如何运作。有效的解释工具对于通过帮助查明问题、纠正错误和增进基本理解来建立更值得信赖的AI非常重要。特别是,“内向”解释技术,侧重于解释DNN的内部组成部分,非常适合发展机械化的运用,指导人工修改和反向工程解决方案。最近许多工作都侧重于DNN的可解释性,而迅速的进展迄今使得方法的系统化变得很困难。在这次调查中,我们审查300多个工作时,重点是内部可解释工具。我们引入一种分类方法,根据它们有助于解释的部分(重量、神经、子网络或潜伏表),以及它们是在(内向)或(后)培训期间实施的。我们的知识侧重于DNNN的可解释性解释性,迄今为止,我们也是在研究核心的网络和变现性研究中,我们首先研究了核心的可变性,在研究中,我们学习了核心的网络的可变性、可变性、可变性,在研究中,在研究中,在研究中,我们研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,我们最后的可变性研究中,在研究的可变式的可变性研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,对等的关键性,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在分析性方面,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在研究中,在

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
143+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
IEEE ICKG 2022: Call for Papers
机器学习与推荐算法
3+阅读 · 2022年3月30日
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Latest News & Announcements of the Tutorial
中国图象图形学学会CSIG
2+阅读 · 2021年12月20日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年2月24日
Arxiv
64+阅读 · 2022年4月13日
Arxiv
13+阅读 · 2021年10月9日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
11+阅读 · 2021年3月25日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
16+阅读 · 2018年2月7日
VIP会员
相关资讯
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
IEEE ICKG 2022: Call for Papers
机器学习与推荐算法
3+阅读 · 2022年3月30日
IEEE TII Call For Papers
CCF多媒体专委会
3+阅读 · 2022年3月24日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Latest News & Announcements of the Tutorial
中国图象图形学学会CSIG
2+阅读 · 2021年12月20日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
相关论文
Arxiv
0+阅读 · 2023年2月24日
Arxiv
64+阅读 · 2022年4月13日
Arxiv
13+阅读 · 2021年10月9日
Arxiv
30+阅读 · 2021年7月7日
Arxiv
14+阅读 · 2021年6月30日
Arxiv
11+阅读 · 2021年3月25日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
16+阅读 · 2018年2月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员