随着机器学习模型越来越多地被用于协助在医疗、金融和法律等高风险领域的关键决策,确保相关利益相关者能够理解这些模型的行为变得非常重要。这种理解有助于确定是否、何时以及在多大程度上依赖这些模型生成的输出。本研究生课程旨在让学生熟悉可解释人工智能(XAI)这一新兴领域的最新进展。在这门课程中,我们将回顾该领域的开创性立场论文,从不同终端用户(如医生、机器学习研究人员/工程师)的角度理解可解释性的概念,详细讨论不同类型的可解释模型和事后解释(如基于规则和基于原型的模型、特征归因、反事实解释、机械可解释性),并探讨可解释性与公平性、稳健性和隐私之间的联系。本课程还将涵盖对大型语言模型(如 GPT-3)和扩散模型(如 DALLE 2)的最新研究,并强调在解释这种大型生成模型的行为时所面临的独特机会和挑战。