Within machine learning model evaluation regimes, feature selection is a technique to reduce model complexity and improve model performance in regards to generalization, model fit, and accuracy of prediction. However, the search over the space of features to find the subset of $k$ optimal features is a known NP-Hard problem. In this work, we study metrics for encoding the combinatorial search as a binary quadratic model, such as Generalized Mean Information Coefficient and Pearson Correlation Coefficient in application to the underlying regression problem of price prediction. We investigate trade-offs in the form of run-times and model performance, of leveraging quantum-assisted vs. classical subroutines for the combinatorial search, using minimum redundancy maximal relevancy as the heuristic for our approach. We achieve accuracy scores of 0.9 (in the range of [0,1]) for finding optimal subsets on synthetic data using a new metric that we define. We test and cross-validate predictive models on a real-world problem of price prediction, and show a performance improvement of mean absolute error scores for our quantum-assisted method $(1471.02 \pm{135.6})$, vs. similar methodologies such as recursive feature elimination $(1678.3 \pm{143.7})$. Our findings show that by leveraging quantum-assisted routines we find solutions that increase the quality of predictive model output while reducing the input dimensionality to the learning algorithm on synthetic and real-world data.


翻译:在机器学习模型评价制度内,特征选择是一种技术,可以降低模型复杂性,改进模型在一般化、模型适合和预测准确性方面的性能。然而,对功能空间进行搜索,以寻找美元最佳特性子集是一个已知的NP-Hard问题。在这项工作中,我们研究将组合搜索编码为二进制的二次二次方位模型的衡量标准,如通用平均信息节能和皮尔逊相近效率,以应用于价格预测的根本性回归问题。我们以运行时间和模型性能的形式,即利用量子辅助法和经典的合成亚例进行组合式搜索,使用最小的冗余最大弹性作为我们的方法。我们用一个我们定义的新度来计算合成数据的最佳次元集。我们测试并交叉评估价格预测问题模型,并显示我们定量辅助方法的绝对误差分数的绩效改进 $(1471.02\p3.3) 用于进行组合式搜索,同时通过常规数据分析方法,我们用SUDRIFALS 增加实际值数据。

0
下载
关闭预览

相关内容

《碳中和愿景下储能产业发展白皮书》27页ppt
专知会员服务
65+阅读 · 2021年3月30日
专知会员服务
50+阅读 · 2020年12月14日
应用机器学习书稿,361页pdf
专知会员服务
58+阅读 · 2020年11月24日
专知会员服务
159+阅读 · 2020年1月16日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
149+阅读 · 2019年10月12日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
0+阅读 · 2021年6月3日
Arxiv
0+阅读 · 2021年6月2日
VIP会员
相关VIP内容
《碳中和愿景下储能产业发展白皮书》27页ppt
专知会员服务
65+阅读 · 2021年3月30日
专知会员服务
50+阅读 · 2020年12月14日
应用机器学习书稿,361页pdf
专知会员服务
58+阅读 · 2020年11月24日
专知会员服务
159+阅读 · 2020年1月16日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
149+阅读 · 2019年10月12日
相关资讯
Top
微信扫码咨询专知VIP会员