Sparse Autoencoders (SAEs) have been proposed as an unsupervised approach to learn a decomposition of a model's latent space. This enables useful applications such as steering - influencing the output of a model towards a desired concept - without requiring labeled data. Current methods identify SAE features to steer by analyzing the input tokens that activate them. However, recent work has highlighted that activations alone do not fully describe the effect of a feature on the model's output. In this work, we draw a distinction between two types of features: input features, which mainly capture patterns in the model's input, and output features, which have a human-understandable effect on the model's output. We propose input and output scores to characterize and locate these types of features, and show that high values for both scores rarely co-occur in the same features. These findings have practical implications: after filtering out features with low output scores, we obtain 2-3x improvements when steering with SAEs, making them competitive with supervised methods.


翻译:稀疏自编码器(SAEs)作为一种无监督方法被提出,用于学习模型潜在空间的分解。这使得诸如模型调控(将模型输出导向期望概念)等应用成为可能,且无需标注数据。现有方法通过分析激活SAE特征的输入标记来确定用于调控的特征。然而,近期研究指出,仅凭激活值并不能完整描述特征对模型输出的影响。本研究区分了两类特征:主要捕捉模型输入模式的输入特征,以及对模型输出具有人类可理解影响的输出特征。我们提出了输入评分与输出评分来刻画并定位这两类特征,并证明两种评分同时高值的情况极少出现在同一特征中。这些发现具有实际意义:在滤除输出评分较低的特征后,使用SAEs进行调控可获得2-3倍的性能提升,使其性能与有监督方法相当。

0
下载
关闭预览

相关内容

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员