Causal probing aims to analyze foundation models by examining how intervening on their representation of various latent properties impacts their outputs. Recent works have cast doubt on the theoretical basis of several leading causal probing methods, but it has been unclear how to systematically evaluate the effectiveness of these methods in practice. To address this, we define two key causal probing desiderata: completeness (how thoroughly the representation of the target property has been transformed) and selectivity (how little non-targeted properties have been impacted). We find that there is an inherent tradeoff between the two, which we define as reliability, their harmonic mean. We introduce an empirical analysis framework to measure and evaluate these quantities, allowing us to make the first direct comparisons between different families of leading causal probing methods (e.g., linear vs. nonlinear, or concept removal vs. counterfactual interventions). We find that: (1) all methods show a clear tradeoff between completeness and selectivity; (2) more complete and reliable methods have a greater impact on LLM behavior; and (3) nonlinear interventions are almost always more reliable than linear interventions. Our project webpage is available at: https://ahdavies6.github.io/causal_probing_reliability/


翻译:因果探测旨在通过干预基础模型对各类潜在属性的表征来考察其如何影响输出,从而分析这些模型。近期研究对几种主流因果探测方法的理论基础提出了质疑,但如何系统评估这些方法在实际中的有效性尚不明确。为此,我们定义了两个关键的因果探测理想特性:完备性(目标属性的表征被转换的彻底程度)与选择性(非目标属性受影响的程度)。我们发现二者之间存在固有的权衡关系,我们将其定义为可靠性——即二者的调和平均值。我们提出了一个实证分析框架来量化和评估这些指标,从而首次实现了对不同类别主流因果探测方法(例如线性与非线性方法,或概念移除与反事实干预)的直接比较。我们发现:(1)所有方法均表现出完备性与选择性之间的明显权衡;(2)更完备且更可靠的方法对大型语言模型行为的影响更大;(3)非线性干预几乎总是比线性干预更可靠。项目网页地址为:https://ahdavies6.github.io/causal_probing_reliability/

0
下载
关闭预览

相关内容

一个具体事物,总是有许许多多的性质与关系,我们把一个事物的性质与关系,都叫作事物的属性。 事物与属性是不可分的,事物都是有属性的事物,属性也都是事物的属性。 一个事物与另一个事物的相同或相异,也就是一个事物的属性与另一事物的属性的相同或相异。 由于事物属性的相同或相异,客观世界中就形成了许多不同的事物类。具有相同属性的事物就形成一类,具有不同属性的事物就分别地形成不同的类。
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月18日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员