成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
稀疏自编码器
关注
16
稀疏自编码器是一种无监督机器学习算法,通过计算自编码的输出与原输入的误差,不断调节自编码器的参数,最终训练出模型。自编码器可以用于压缩输入信息,提取有用的输入特征。
综合
百科
VIP
热门
动态
论文
精华
Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
Arxiv
0+阅读 · 10月25日
Sparse Autoencoder Neural Operators: Model Recovery in Function Spaces
Arxiv
0+阅读 · 10月23日
Breaking Bad Tokens: Detoxification of LLMs Using Sparse Autoencoders
Arxiv
0+阅读 · 10月23日
SAFER: Probing Safety in Reward Models with Sparse Autoencoder
Arxiv
0+阅读 · 10月14日
How a Bilingual LM Becomes Bilingual: Tracing Internal Representations with Sparse Autoencoders
Arxiv
0+阅读 · 10月10日
SAE-FiRE: Enhancing Earnings Surprise Predictions Through Sparse Autoencoder Feature Selection
Arxiv
0+阅读 · 10月7日
Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders
Arxiv
0+阅读 · 10月4日
SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder
Arxiv
0+阅读 · 10月6日
Mechanistic Interpretability of Code Correctness in LLMs via Sparse Autoencoders
Arxiv
0+阅读 · 10月3日
AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features
Arxiv
0+阅读 · 10月2日
Sparse Autoencoders Make Audio Foundation Models more Explainable
Arxiv
0+阅读 · 9月29日
Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence
Arxiv
0+阅读 · 9月29日
CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection
Arxiv
0+阅读 · 8月18日
A Single Neuron Works: Precise Concept Erasure in Text-to-Image Diffusion Models
Arxiv
0+阅读 · 9月25日
Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models
Arxiv
0+阅读 · 7月9日
参考链接
父主题
自编码器
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top