题目: Encoding Categorical Variables with Ambiguity

摘要: 大多数有监督的学习方法都假设独立变量是无歧义的。在学习方法的预处理阶段,分类变量常常由一个映射函数从每一个类别映射到一个实数,从而形成数值向量。然而,在现实世界中,有几种自然情况下分类变量是模糊的,例如X的值是a或b。在本文中,我们证明了编码模糊分类变量的问题可以被理解为缺失值的插补问题。我们扩展了现有的一种HoToN编码方法,明确地处理了模糊的分类变量,并在此基础上提出了基于缺失值算法、模糊森林的两种编码方法。一种是missforest算法的简单扩展,另一种是missforest从部分标签学习到编码方法的新应用。我们通过掩蔽两个真实世界的数据集以包含具有模糊性的分类自变量来评估编码方法的效果。

成为VIP会员查看完整内容
4

相关内容

【泡泡图灵智库】体积实例感知语义建图与3D对象发现
泡泡机器人SLAM
22+阅读 · 2019年9月7日
论文浅尝 | TuckER:基于张量分解的知识图谱补全
开放知识图谱
34+阅读 · 2019年3月17日
特征工程方法:一、类别变量编码
论智
5+阅读 · 2018年11月20日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
可视化多维数据的艺术
论智
10+阅读 · 2018年1月23日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
字词的向量表示
黑龙江大学自然语言处理实验室
4+阅读 · 2016年6月13日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
5+阅读 · 2018年1月17日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
相关资讯
【泡泡图灵智库】体积实例感知语义建图与3D对象发现
泡泡机器人SLAM
22+阅读 · 2019年9月7日
论文浅尝 | TuckER:基于张量分解的知识图谱补全
开放知识图谱
34+阅读 · 2019年3月17日
特征工程方法:一、类别变量编码
论智
5+阅读 · 2018年11月20日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
可视化多维数据的艺术
论智
10+阅读 · 2018年1月23日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
字词的向量表示
黑龙江大学自然语言处理实验室
4+阅读 · 2016年6月13日
微信扫码咨询专知VIP会员