发现各种有用的数据挖掘算法,这些算法可以从庞大的候选数据中选择小的重要特征集,或者从测量变量中提取有用的特征。
作为一个严谨的数据挖掘程序员,您将经常面对数以千计的候选特征,用于您的预测或分类应用程序,其中大多数特征几乎没有价值或没有价值。您将知道,其中许多特征可能只有在与某些其他特征结合时才有用,而单独使用或与大多数其他特征结合时实际上是毫无价值的。有些特征可能具有巨大的预测能力,但只能在特征空间的一个小的、专门的领域内。这本书通过介绍现代的特性选择技术和实现这些技术的代码来帮助您解决这个问题。其中一些技巧是:
所有算法都得到了直观的证明,并得到了相关方程和解释材料的支持。作者还提供并解释了完整的、高度注释的源代码。
示例代码是C++和CUDA C,但Python或其他代码可以替换;重要的是算法,而不是用来编写算法的代码。
你将学到什么
将主成分分析与向前和向后的逐步选择相结合,以确定在整个集合中捕获最大可能变异的大量变量集合的一个紧凑子集。
识别仅对特征域的一个小子集具有预测能力的特征。这些特征可以被现代预测模型有效地利用,但可能被其他特征选择方法所遗漏。
找出同时控制特征变量和目标分布的隐含马尔可夫模型。这种方法固有的记忆在高噪音应用中尤其有价值,例如金融市场的预测。
这本书是给谁的
中级到高级数据科学程序员和分析师。强烈推荐有c++和CUDA C的经验。然而,这本书可以作为框架使用其他语言,如Python。