In this paper, we study feature cross search as a fundamental primitive in feature engineering. The importance of feature cross search especially for the linear model has been known for a while, with well-known textbook examples. In this problem, the goal is to select a small subset of features, combine them to form a new feature (called the crossed feature) by considering their Cartesian product, and find feature crosses to learn an \emph{accurate} model. In particular, we study the problem of maximizing a normalized Area Under the Curve (AUC) of the linear model trained on the crossed feature column. First, we show that it is not possible to provide an $n^{1/\log\log n}$-approximation algorithm for this problem unless the exponential time hypothesis fails. This result also rules out the possibility of solving this problem in polynomial time unless $\mathsf{P}=\mathsf{NP}$. On the positive side, by assuming the \naive\ assumption, we show that there exists a simple greedy $(1-1/e)$-approximation algorithm for this problem. This result is established by relating the AUC to the total variation of the commutator of two probability measures and showing that the total variation of the commutator is monotone and submodular. To show this, we relate the submodularity of this function to the positive semi-definiteness of a corresponding kernel matrix. Then, we use Bochner's theorem to prove the positive semi-definiteness by showing that its inverse Fourier transform is non-negative everywhere. Our techniques and structural results might be of independent interest.


翻译:在本文中, 我们研究交叉搜索是特性工程的基本原始。 特征交叉搜索的重要性, 特别是线性模型的重要性已经为人所知, 有著名的教科书实例 。 在此问题上, 目标是选择一小部分特性, 结合它们形成一个新的特性( 所谓的跨特性 ), 并找到特征交叉点来学习 emph{ cacurate} 模型 。 特别是, 我们研究在跨线性功能列上训练的线性模型( AUC) 下最大限度地实现一个正常化区域的问题 。 首先, 我们显示, 除非指数性假设失败, 否则无法为这一问题提供一个小子集, 将它们合并成一个新的特性( 称为跨线性特性特征 ), 并找到特征交叉点来学习 。 在正面方面, 我们假设了一个简单的 $/ $/ log\ log\ n} n} 。 在跨线性 模型下, 我们显示一个简单的非正值的非正值, 匹配性值的算法性 将显示一个正值的 的 。 和 直径向性 递性 的 递性 递变 的 的 度 的 度 的 值 的 向性 向性 的 的 的 的 的 的 向的 向性 显示着值 的 的 的 的 的 向值值 显示 的 的 的 的 的 的 的 的 的 的 的 向值 向值 向值 向值 向 向值 的 的 的 向值 。 向的 的 向 。 向 向 向 向 向 向 向 显示 的 的 的 的 的 的 向 的 的 的 的 的 的 的 的 向 向 的 的 的 的 的 的 向 向 的 的 的 向 向 向 向 显示 向 的 的 的 的 的 向 向 向 向 向 向 向 向 向 向 向 的 的 的 的 的 向下 向下 的 的 的 的 向

0
下载
关闭预览

相关内容

对于给定d个属性描述的示例x=(x1,x2,......,xd),通过属性的线性组合来进行预测。一般的写法如下: f(x)=w'x+b,因此,线性模型具有很好的解释性(understandability,comprehensibility),参数w代表每个属性在回归过程中的重要程度。
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
221+阅读 · 2020年6月5日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
0+阅读 · 2021年9月5日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
221+阅读 · 2020年6月5日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员