早期的符号NLP模型旨在利用对语言和认知的有价值的见解。这些见解直接表达在手工设计的结构中,这确保了模型行为是系统的和可解释的。不幸的是,这些模型也趋向于脆弱和专门化。相比之下,目前的模型是数据驱动的,可以灵活地获取复杂的行为,这开辟了许多新的途径。然而,现在的权衡是显而易见的:这些模型常常找到不透明的、非系统的解决方案。在这次演讲中,我将报告我们正在进行的努力,利用因果抽象分析中的技术来结合新旧方法的最佳方面。在这种方法中,我们定义高级因果模型,通常是用符号术语,然后训练神经网络,使其符合那些模型的结构,同时学习特定的任务。核心技术部分是互换干预训练(IIT),在这个训练中,我们以一种受因果模型的输入-输出行为引导的方式,交换目标神经模型的内部表示。当IIT的目标被最小化时,高级模型是一个可解释的,忠实的潜在神经模型的代理。我的演讲将集中于IIT如何以及为什么工作,因为我希望这将帮助人们确定它的新应用领域,我也将简要回顾将IIT应用于自然语言推理、基础语言理解和语言模型提炼的案例研究。
https://web.stanford.edu/~cgpotts/talks/potts-mcgill2022-slides.pdf