As AI systems grow more capable, it becomes increasingly important that their decisions remain understandable and aligned with human expectations. A key challenge is the limited interpretability of deep models. Post-hoc methods like GradCAM offer heatmaps but provide limited conceptual insight, while prototype-based approaches offer example-based explanations but often rely on rigid region selection and lack semantic consistency. To address these limitations, we propose PCMNet, a part-prototypical concept mining network that learns human-comprehensible prototypes from meaningful image regions without additional supervision. By clustering these prototypes into concept groups and extracting concept activation vectors, PCMNet provides structured, concept-level explanations and enhances robustness to occlusion and challenging conditions, which are both critical for building reliable and aligned AI systems. Experiments across multiple image classification benchmarks show that PCMNet outperforms state-of-the-art methods in interpretability, stability, and robustness. This work contributes to AI alignment by enhancing transparency, controllability, and trustworthiness in AI systems. Our code is available at: https://github.com/alehdaghi/PCMNet.


翻译:随着人工智能系统能力的不断增强,确保其决策过程保持可理解性并与人类期望保持一致变得日益重要。一个关键挑战在于深度模型的可解释性有限。诸如GradCAM等事后方法虽然能提供热力图,但概念性洞察有限;而基于原型的方法虽然提供基于示例的解释,但通常依赖于僵化的区域选择且缺乏语义一致性。为应对这些局限,我们提出了PCMNet,一种部分原型概念挖掘网络,它能够在无需额外监督的情况下从有意义的图像区域中学习人类可理解的原型。通过将这些原型聚类为概念组并提取概念激活向量,PCMNet提供了结构化的概念级解释,并增强了对遮挡和挑战性条件的鲁棒性,这两者对于构建可靠且对齐的人工智能系统都至关重要。在多个图像分类基准测试上的实验表明,PCMNet在可解释性、稳定性和鲁棒性方面均优于现有最先进方法。这项工作通过提升人工智能系统的透明度、可控性和可信度,为人工智能对齐做出了贡献。我们的代码发布于:https://github.com/alehdaghi/PCMNet。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员