In this paper, we propose a wrapper for feature subset selection (FSS) based on parallel and distributed hybrid evolutionary algorithms viz., parallel binary differential evolution and threshold accepting (PB-DETA), parallel binary threshold accepting and differential evolution (PB-TADE) under the Apache Spark environment. Here, the FSS is formulated as a combinatorial optimization problem. PB-TADE comprises invoking two optimization algorithms i.e., TA and BDE in tandem in every iteration, while in PB-DETA, BDE is invoked first before TA takes over in tandem in every iteration. In addition to these hybrids, parallel binary differential evolution (P-BDE), is also developed to investigate the role played by TA and for baseline comparison. For all the three proposed approaches, logistic regression (LR) is used to compute the fitness function namely, the area under ROC curve (AUC) score. The effectiveness of the parallel and distributed wrappers is assessed over five large datasets of varying feature space dimension pertaining to the cyber security and biology domains. It is noteworthy that the PB-TADE turned out to be statistically significant compared to P-BDE and PB-DETA. The speed up is reported with respect to the sequential version of the three wrappers. Average AUC score obtained, most repeated feature subsets, feature subsets with least cardinality having best AUC score are also reported. Further, our proposed methods outperformed the state-of-the-art results, wherever the results were reported.


翻译:在本文中,我们提出一个基于平行和分布的混合进化算法(PB-DETA)、平行二进制进化和门槛接受(PB-DETA)、平行二进制门槛接受和差异进化(PB-TADE)的特征子集选择(FSS)的包装。这里,FSS是一个组合优化问题。PB-TADE包含在每一次迭代中同时援引两种优化算法,即TA和BDE,而在PB-DETA中,BDE首先在TA同时在每次迭代中被援引。除了这些混合,平行二进制进化和门槛接受(PP-DETA)、平行二进制门槛接受和差异进化(P-DEDADA)之外,还开发了平行进化门槛(PBB-TADA)的作用并用于基线比较。关于所有三种拟议方法,即ROC曲线(AUC)下区域评分数,平行和分布式包装包件的效力被评估超过五套与网络安全和生物域不同特征的大型数据集。值得注意的是,PB-TA级评分级评分数(P-DE-A-A-A)的评分级计算方法被报告为具有重要分级比。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
【今日新增】计算机领域国际会议截稿信息
Call4Papers
9+阅读 · 2017年7月21日
A Modern Introduction to Online Learning
Arxiv
21+阅读 · 2019年12月31日
Arxiv
5+阅读 · 2017年7月25日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
【今日新增】计算机领域国际会议截稿信息
Call4Papers
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员