Post-hoc explanation methods for black-box models often struggle with faithfulness and human interpretability due to the lack of explainability in current neural architectures. Meanwhile, B-cos networks have been introduced to improve model explainability by proposing an architecture that removes bias terms and promotes input-weight alignment. Although B-cos networks have shown success in building explainable systems, their application has so far been limited to computer vision models and their associated training pipelines. In this work, we introduce B-cos LMs, i.e., B-cos Language Models (LMs) empowered for natural language processing (NLP) tasks. Our approach directly transforms pre-trained language models into B-cos LMs by combining B-cos conversion and task fine-tuning, improving efficiency compared to previous methods. Automatic and human evaluation results demonstrate that B-cos LMs produce more faithful and human interpretable explanations than post-hoc methods, while maintaining task performance comparable to conventional fine-tuning. Our in-depth analysis explores how B-cos LMs differ from conventionally fine-tuned models in their learning processes and explanation patterns. Finally, we present a first exploration of transforming decoder-only models to B-cos LMs for generation tasks. Our code is available at https://github.com/Ewanwong/bcos_lm.


翻译:针对黑盒模型的事后解释方法常因当前神经架构缺乏可解释性而在忠实度和人类可理解性方面面临挑战。与此同时,B-cos网络通过提出一种消除偏置项并促进输入-权重对齐的架构,被引入以提升模型可解释性。尽管B-cos网络在构建可解释系统方面已取得成功,但其应用迄今仍局限于计算机视觉模型及相关训练流程。本工作中,我们提出B-cos LMs,即赋能自然语言处理(NLP)任务的B-cos语言模型(LMs)。我们的方法通过结合B-cos转换与任务微调,直接将预训练语言模型转化为B-cos LMs,相比先前方法提升了效率。自动与人工评估结果表明,B-cos LMs能产生比事后解释方法更忠实且更易于人类理解的解释,同时保持与传统微调相当的任务性能。我们通过深入分析探讨了B-cos LMs在学习过程和解释模式上与传统微调模型的差异。最后,我们首次探索了将仅解码器模型转化为B-cos LMs以用于生成任务。代码公开于https://github.com/Ewanwong/bcos_lm。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员