High-dimensional data sets are often analyzed and explored via the construction of a latent low-dimensional space which enables convenient visualization and efficient predictive modeling or clustering. For complex data structures, linear dimensionality reduction techniques like PCA may not be sufficiently flexible to enable low-dimensional representation. Non-linear dimension reduction techniques, like kernel PCA and autoencoders, suffer from loss of interpretability since each latent variable is dependent of all input dimensions. To address this limitation, we here present path lasso penalized autoencoders. This structured regularization enhances interpretability by penalizing each path through the encoder from an input to a latent variable, thus restricting how many input variables are represented in each latent dimension. Our algorithm uses a group lasso penalty and non-negative matrix factorization to construct a sparse, non-linear latent representation. We compare the path lasso regularized autoencoder to PCA, sparse PCA, autoencoders and sparse autoencoders on real and simulated data sets. We show that the algorithm exhibits much lower reconstruction errors than sparse PCA and parameter-wise lasso regularized autoencoders for low-dimensional representations. Moreover, path lasso representations provide a more accurate reconstruction match, i.e. preserved relative distance between objects in the original and reconstructed spaces.


翻译:高维数据集往往会通过建造潜伏低维空间来分析和探索,这种潜伏低维空间可以方便地视觉化和高效地预测模型或集群。对于复杂的数据结构来说,像五氯苯甲醚这样的线性维度减少技术可能不够灵活,无法进行低维代表。非线性减少技术,如五氯苯甲醚和自动编码器等,由于每个潜伏变量取决于所有输入维度,因此会丧失可解释性。为了应对这一限制,我们在这里展示路径 lasso 惩罚自动编码器。这种结构化的正规化加强了可解释性,通过从输入到潜伏变量的编码器对每一个路径进行处罚,从而限制每个潜伏维度维度中有多少输入变量。我们的算法使用一个组的 lasso 处罚和非负维度矩阵因子化来构建一个稀薄的非线性、 非线性潜伏性代表器。我们比较了每个潜在变量的正统化自动编码器与五氯苯甲醚、 自定义的自动编码器和稀薄的自动编码器化的自动编码器。我们显示的重建错误要小得多于稀薄的五氯苯和参数的拉索常规化的硬度变量,在低维度空间的物体的相对的构造中提供。

0
下载
关闭预览

相关内容

自动编码器是一种人工神经网络,用于以无监督的方式学习有效的数据编码。自动编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的表示(编码),通常用于降维。与简化方面一起,学习了重构方面,在此,自动编码器尝试从简化编码中生成尽可能接近其原始输入的表示形式,从而得到其名称。基本模型存在几种变体,其目的是迫使学习的输入表示形式具有有用的属性。自动编码器可有效地解决许多应用问题,从面部识别到获取单词的语义。
【DeepMind】强化学习教程,83页ppt
专知会员服务
152+阅读 · 2020年8月7日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
一步步教你轻松学主成分分析PCA降维算法
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
vae 相关论文 表示学习 2
CreateAMind
6+阅读 · 2018年9月9日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
互信息论文笔记
CreateAMind
23+阅读 · 2018年8月23日
LASSO回归与XGBoost:融合模型预测房价
论智
31+阅读 · 2018年8月8日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
课程笔记|吴恩达Coursera机器学习 Week1 笔记-机器学习基础
机器学习研究会
4+阅读 · 2017年10月18日
Arxiv
6+阅读 · 2020年10月8日
Hyperspherical Variational Auto-Encoders
Arxiv
4+阅读 · 2018年9月26日
Arxiv
4+阅读 · 2018年4月10日
VIP会员
相关资讯
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
一步步教你轻松学主成分分析PCA降维算法
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
vae 相关论文 表示学习 2
CreateAMind
6+阅读 · 2018年9月9日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
互信息论文笔记
CreateAMind
23+阅读 · 2018年8月23日
LASSO回归与XGBoost:融合模型预测房价
论智
31+阅读 · 2018年8月8日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
课程笔记|吴恩达Coursera机器学习 Week1 笔记-机器学习基础
机器学习研究会
4+阅读 · 2017年10月18日
Top
微信扫码咨询专知VIP会员