发现各种有用的数据挖掘算法,这些算法可以从庞大的候选数据中选择小的重要特征集,或者从测量变量中提取有用的特征。

作为一个严谨的数据挖掘程序员,您将经常面对数以千计的候选特征,用于您的预测或分类应用程序,其中大多数特征几乎没有价值或没有价值。您将知道,其中许多特征可能只有在与某些其他特征结合时才有用,而单独使用或与大多数其他特征结合时实际上是毫无价值的。有些特征可能具有巨大的预测能力,但只能在特征空间的一个小的、专门的领域内。这本书通过介绍现代的特性选择技术和实现这些技术的代码来帮助您解决这个问题。其中一些技巧是:

  • 正向选择分量分析
  • 当地的特征选择
  • 使用隐马尔可夫模型连接特征和目标

所有算法都得到了直观的证明,并得到了相关方程和解释材料的支持。作者还提供并解释了完整的、高度注释的源代码。

示例代码是C++和CUDA C,但Python或其他代码可以替换;重要的是算法,而不是用来编写算法的代码。

你将学到什么

  • 将主成分分析与向前和向后的逐步选择相结合,以确定在整个集合中捕获最大可能变异的大量变量集合的一个紧凑子集。

  • 识别仅对特征域的一个小子集具有预测能力的特征。这些特征可以被现代预测模型有效地利用,但可能被其他特征选择方法所遗漏。

  • 找出同时控制特征变量和目标分布的隐含马尔可夫模型。这种方法固有的记忆在高噪音应用中尤其有价值,例如金融市场的预测。

这本书是给谁的

中级到高级数据科学程序员和分析师。强烈推荐有c++和CUDA C的经验。然而,这本书可以作为框架使用其他语言,如Python。

成为VIP会员查看完整内容
0
46

相关内容

Python Workout提供了50个练习,重点是Python 3的关键特性。在这本书中,Python专家教练鲁文·勒纳(Reuven Lerner)通过一系列小项目指导你,练习你处理日常任务所需的技能。你会喜欢每个技巧的清晰解释,你可以观看Reuven解决每个练习的视频。

https://www.manning.com/books/python-workout

在过去的几年中,Python已经进入了许多领域,包括系统管理、数据科学、devops、文本处理和Web开发。因此,现在有许多课程和书籍旨在教授Python。

本书分为10章,每一章涵盖Python的不同领域。总的来说,随着本书的发展,问题会变得越来越复杂——但这并不意味着我要等到“函数”一章才开始使用函数,或者等到“函数编程”一章才开始理解函数。你可以使用任何你认为必要的工具。

每一章都以一个参考表开始,包括链接,指向可能帮助你更好地理解你已经忘记或从未学过的主题的资源。我希望这些将帮助您加强对Python的理解,而不仅仅是本书本身。

除了练习和解决方案,还有视频,在其中我演示如何解决每个问题,并添加到我在书中的讨论。解决方案和你在书中读到的一样,但对很多人来说,视频让整个过程更加生动;你会在我的现场培训课程中得到更多的感觉。此外,查看编码和解决过程的时间变化通常很有帮助,而不是在页面上一次性查看所有内容。使用视频片段的最佳方法是同时打开该书和视频(在Manning的liveVideo平台中)。对于每个练习,从书开始,完成每个练习,如果你喜欢,阅读解决方案和讨论。然后点击相应的视频片段,看我演示解决方案,并为讨论提供进一步的见解。

成为VIP会员查看完整内容
0
64

有兴趣的数据科学专业人士可以通过本书学习Scikit-Learn图书馆以及机器学习的基本知识。本书结合了Anaconda Python发行版和流行的Scikit-Learn库,演示了广泛的有监督和无监督机器学习算法。通过用Python编写的清晰示例,您可以在家里自己的机器上试用和试验机器学习的原理。

所有的应用数学和编程技能需要掌握的内容,在这本书中涵盖。不需要深入的面向对象编程知识,因为工作和完整的例子被提供和解释。必要时,编码示例是深入和复杂的。它们也简洁、准确、完整,补充了介绍的机器学习概念。使用示例有助于建立必要的技能,以理解和应用复杂的机器学习算法。

对于那些在机器学习方面追求职业生涯的人来说,Scikit-Learn机器学习应用手册是一个很好的起点。学习这本书的学生将学习基本知识,这是胜任工作的先决条件。读者将接触到专门为数据科学专业人员设计的蟒蛇分布,并将在流行的Scikit-Learn库中构建技能,该库是Python世界中许多机器学习应用程序的基础。

你将学习

  • 使用Scikit-Learn中常见的简单和复杂数据集
  • 将数据操作为向量和矩阵,以进行算法处理
  • 熟悉数据科学中使用的蟒蛇分布
  • 应用带有分类器、回归器和降维的机器学习
  • 优化算法并为每个数据集找到最佳算法
  • 从CSV、JSON、Numpy和panda格式加载数据并保存为这些格式

这本书是给谁的

  • 有抱负的数据科学家渴望通过掌握底层的基础知识进入机器学习领域,而这些基础知识有时在急于提高生产力的过程中被忽略了。一些面向对象编程的知识和非常基本的线性代数应用将使学习更容易,尽管任何人都可以从这本书获益。
成为VIP会员查看完整内容
0
174

这本书的目标是介绍自动微分的基本算法,以及流行的数学和统计函数的自动微分规则的百科全书式的集合。

自动微分是一种通用的技术,用于将函数的计算值转换为可计算导数的值。导数计算只给用于计算函数值的每个操作增加一个常数的开销,因此可微函数与原始函数具有相同的复杂度阶数。在描述了自动微分的标准形式之后,这本书提供了一个百科全书收集的正切和伴随规则的前向模式和后向模式自动微分,涵盖了最广泛使用的标量,向量,矩阵和概率函数。附录包含正向模式、反向模式和混合模式自动区分的工作示例代码。

成为VIP会员查看完整内容
0
55

使用C编程语言学习应用数值计算,从快速入门的C编程语言及其SDK开始。然后,这本书深入到使用C的计算方法的渐进更复杂的应用数学公式的例子贯穿始终,并在最后一个更大的,更完整的应用。

Numerical C以二次公式开始,用于寻找代数方程的解,这些代数方程模拟诸如价格与需求、上涨与运行或下滑等情况。在本书后面,你将学习联立方程的增广矩阵法。

您还将介绍蒙特卡罗方法模型对象,这些对象可以作为真实系统建模的一部分自然产生,例如复杂的道路网络、中子的传输或股票市场的演化。此外,蒙特卡罗方法的集成检查曲线下的面积,包括渲染或射线跟踪和一个地区的阴影。

此外,您将使用积差相关系数:相关是一种用于研究两个定量连续变量(例如年龄和血压)之间关系的技术。在这本书的最后,你会有一个感觉,什么电脑软件可以做,以帮助你在你的工作和应用一些方法直接学习到你的工作。

你会学到什么

  • 获得软件和C语言编程基础
  • 编写软件解决应用,计算数学问题
  • 创建程序来解决方程和微积分问题
  • 采用梯形法、蒙特卡罗法、最佳拟合线、积差相关系数、辛普森法则和矩阵解法
  • 写代码来解微分方程
  • 将一个或多个方法应用到应用案例研究中

这本书是给谁看的

具有基本数学知识(学校水平)和一些基本编程经验的人。这对于那些可能在数学或其他领域(例如,生命科学、工程或经济学)工作并需要学习C编程的人来说也很重要。

成为VIP会员查看完整内容
0
43

本书是为那些对数据科学感兴趣的Python程序员编写的。唯一的先决条件是Python的基本知识。不需要有使用复杂算法的经验。数学背景不是必须的。读完这本书的业余爱好者将获得获得第一份高薪数据科学工作所必需的技能。这些技能包括:

  • 概率论和统计学的基础。
  • 监督和非监督机器学习技术。
  • 关键的数据科学图书馆,如NumPy, SciPy, panda, Matplotlib和Scikit-Learn。
  • 解决问题的能力。

开放式解决问题的能力对于数据科学职业来说是必不可少的。不幸的是,这些能力不能通过阅读来获得。要成为一个问题解决者,你必须坚持解决困难的问题。带着这种想法,我的书围绕着案例研究展开:以真实世界为模型的开放式问题。案例研究范围从在线广告分析到使用新闻数据跟踪疾病暴发。

成为VIP会员查看完整内容
0
156

为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输 入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间 的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它 是机器学习流程中一个极其关键的环节,因为正确的特征可以减轻构建模型的难度,从而 使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习 流程的绝大部分时间都耗费在特征工程和数据清洗上。然而,尽管特征工程非常重要,专 门讨论这个话题的著作却很少。究其原因,可能是正确的特征要视模型和数据的具体情况 而定,而模型和数据千差万别,很难从各种项目中归纳出特征工程的实践原则。

然而,特征工程并不只是针对具体项目的行为,它有一些基本原则,而且最好结合具体情 境进行解释说明。在本书中,每一章都集中阐述一个数据问题:如何表示文本数据或图像 数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。你可以 将本书看作内容互有联系的短篇小说集,而不是一部长篇小说。每一章都对大量现有特征 工程技术进行了简单介绍,它们综合在一起,阐明了特征工程的基本原则。

掌握一门学科不仅仅是要了解其中的定义以及能够推导公式。仅知道它的工作机制和用途 是不够的,你还必须理解它为什么这样设计,它与其他技术有何联系,以及每种方法的优 点和缺点。只有清楚地知道事情是如何完成的,对其中的基本原理有直观的理解,并能将 知识融会贯通,才称得上精通。尽管一本好书可以让你初窥门径,但只靠读书不能登堂入 室,你必须动手实践,将你的想法变成实际的应用,这是一个不断迭代的过程。在每次迭 代中,我们都能将想法理解得更加透彻,并逐渐找到更巧妙、更有创造性的实现方法。本书的目的就是帮助你更好地实现想法。

  • 第1章介 绍机器学习流程中的基本概念(数据、模型、特征等)。
  • 第 2 章研究数值型数据的基础特 征工程:过滤、分箱、缩放、对数变换和幂次变换,以及交互特征。
  • 第 3 章开始介绍自然 文本的特征工程,并研究词袋、n-gram 和短语检测等技术。
  • 第 4 章介绍 tf-idf(词频 - 逆 文档频率),并将其作为特征缩放的一个例子,说明特征缩放为什么会有效。
  • 从第 5 章开 始,节奏开始加快,我们要讨论高效的分类变量编码技术,包括特征散列化和分箱计数。
  • 第 6 章介绍主成分分析(PCA),此时我们已经深入到机器学习的腹地了。
  • 第 7 章将 k-均 值聚类作为一种特征化技术,说明了模型堆叠这一重要概念。

第 8 章专门讲解图像处理, 图像数据的特征提取要比文本数据困难得多。我们先介绍两种手动提取特征的技术:SIFT 和 HOG,然后再介绍深度学习这种最新的图像特征提取技术。

最后,第 9 章通过一个完 整的例子(为一个学术论文数据集创建推荐器)演示几种技术的实际应用。

成为VIP会员查看完整内容
《Feature Engineering for Machine Learning》英文PDF.pdf
《精通特征工程》中文PDF.pdf
0
261

这本书在对算法工作原理的高层次理解和对优化模型的具体细节的了解之间找到一个平衡点。这本书将给你的信心和技能时,开发所有主要的机器学习模型。在这本Pro机器学习算法中,您将首先在Excel中开发算法,以便在用Python/R实现模型之前,实际了解可以在模型中调优的所有细节。

你将涵盖所有主要的算法:监督和非监督学习,其中包括线性/逻辑回归;k - means聚类;主成分分析;推荐系统;决策树;随机森林;“GBM”;和神经网络。您还将通过CNNs、RNNs和word2vec等文本挖掘工具了解最新的深度学习。你不仅要学习算法,还要学习特征工程的概念来最大化模型的性能。您将看到该理论与案例研究,如情绪分类,欺诈检测,推荐系统,和图像识别,以便您得到最佳的理论和实践为工业中使用的绝大多数机器学习算法。在学习算法的同时,您还将接触到在所有主要云服务提供商上运行的机器学习模型。

你会学到什么?

  • 深入了解所有主要的机器学习和深度学习算法
  • 充分理解在构建模型时要避免的陷阱
  • 在云中实现机器学习算法
  • 通过对每种算法的案例研究,采用动手实践的方法
  • 学习集成学习的技巧,建立更精确的模型
  • 了解R/Python编程的基础知识和Keras深度学习框架

这本书是给谁看的

希望转换到数据科学角色的业务分析师/ IT专业人员。想要巩固机器学习知识的数据科学家。

成为VIP会员查看完整内容
0
135

由于特征工程通常是特定于数据类型且依赖于应用程序的,本书包含专门介绍主要数据类型的特征工程的章节,如文本数据、图像数据、序列数据、时间序列数据、图形数据、流数据、软件工程数据、Twitter 数据和社交媒体数据。这些章节介绍了生成经过反复测试、手工制作的特定于域的功能以及自动通用功能生成方法(如 Word2Vec)的方法。

本书目录:

  1. 预览概述
  2. 文本数据特征工程 
  3. 视觉数据特征提取学习
  4. 基于特征的时序分析
  5. 数据特征流工程
  6. 序列特征生成与特征工程
  7. 图与网络特征生成
  8. 特征选择与评估
  9. 监督学习中的自动特征工程
  10. 基于模式的特征生成
  11. 深度学习特征表示
  12. 用于社交机器人检测的特征工程
  13. 用于软件分析的特征生成与工程
  14. Twitter应用特征工程

本书还包含有关特征选择、基于特征转换的自动方法、使用深度学习方法生成功能以及使用频繁和对比度模式生成特征的章节。有几章是关于在特定应用中使用特征工程的。

本书包含许多有用的特征工程概念和技术,这些概念和技术适用于多种方案:(a) 生成功能以表示没有要素时的数据,(b) 在(人们可能担心)存在时生成有效特征功能不够好/竞争力不够,(c) 在功能过多时选择功能,(d) 为特定类型的应用程序生成和选择有效功能,以及 (e) 了解与相关挑战以及需要处理的方法,各种数据类型。

成为VIP会员查看完整内容
0
93
小贴士
相关VIP内容
专知会员服务
174+阅读 · 2020年6月10日
专知会员服务
55+阅读 · 2020年6月6日
专知会员服务
163+阅读 · 2020年6月3日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
43+阅读 · 2020年4月7日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
156+阅读 · 2020年2月21日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
261+阅读 · 2020年2月15日
专知会员服务
135+阅读 · 2020年2月11日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
93+阅读 · 2019年10月10日
相关资讯
用Python实现流行机器学习算法
Python程序员
10+阅读 · 2018年12月31日
数据科学即将迎来“无代码”时代
大数据文摘
4+阅读 · 2018年10月21日
2019年机器学习:追踪人工智能发展之路
人工智能学家
4+阅读 · 2018年10月14日
机器学习新手必看10大算法
深度学习世界
4+阅读 · 2018年2月1日
最适合机器学习新手的10种算法
论智
5+阅读 · 2018年1月23日
干货|7步掌握基于Keras的深度学习!
全球人工智能
3+阅读 · 2017年11月14日
相关论文
A Survey on Bayesian Deep Learning
Hao Wang,Dit-Yan Yeung
46+阅读 · 2020年7月2日
A survey on Semi-, Self- and Unsupervised Techniques in Image Classification
Lars Schmarje,Monty Santarossa,Simon-Martin Schröder,Reinhard Koch
83+阅读 · 2020年2月20日
Joost Verbraeken,Matthijs Wolting,Jonathan Katzy,Jeroen Kloppenburg,Tim Verbelen,Jan S. Rellermeyer
29+阅读 · 2019年12月20日
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction
Shun Zheng,Wei Cao,Wei Xu,Jiang Bian
10+阅读 · 2019年9月23日
Multi-Temporal Aerial Image Registration Using Semantic Features
Ananya Gupta,Yao Peng,Simon Watson,Hujun Yin
3+阅读 · 2019年9月19日
Image Captioning: Transforming Objects into Words
Simao Herdade,Armin Kappeler,Kofi Boakye,Joao Soares
5+阅读 · 2019年6月14日
Accelerated Methods for Deep Reinforcement Learning
Adam Stooke,Pieter Abbeel
5+阅读 · 2019年1月10日
Xin Bing,Florentina Bunea,Marten Wegkamp
6+阅读 · 2018年6月12日
Abhishek Gupta,Benjamin Eysenbach,Chelsea Finn,Sergey Levine
6+阅读 · 2018年6月12日
Yixing Fan,Liang Pang,JianPeng Hou,Jiafeng Guo,Yanyan Lan,Xueqi Cheng
5+阅读 · 2017年7月23日
Top