【干货书】机器学习特征工程,217页pdf

2021 年 2 月 6 日 专知


由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(国内译作《精通特征工程》)一书,可以说是特征工程的宝典,本文在知名开源apachecn组织翻译的英文版基础上,将原文修改成jupyter notebook格式,并增加和修改了部分代码,测试全部通过。这个资料可以说是特征工程的宝典,值得推荐。


特征工程是机器学习流程中至关重要的一个环节,然而专门讨论这个话题的著作却很少。本书旨在填补这一空白,着重阐明特征工程的基本原则,介绍大量特征工程技术,教你从原始数据中提取出正确的特征并将其转换为适合机器学习模型的格式,从而轻松构建模型,增强机器学习算法的效果。


然而,本书并非单纯地讲述特征工程的基本原则,而是通过大量示例和练习将重点放在了实际应用上。每一章都集中研究一个数据问题:如何表示文本数据或图像数据,如何为自动生成的特征降低维度,何时以及如何对特征进行标准化,等等。最后一章通过一个完整的例子演示了多种特征工程技术的实际应用。书中所有代码示例均是用Python编写的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。

- 数值型数据的特征工程:过滤、分箱、缩放、对数变换和指数变换
- 自然文本技术:词袋、n元词与短语检测
- 基于频率的过滤和特征缩放
- 分类变量编码技术:特征散列化与分箱计数
- 使用主成分分析的基于模型的特征工程
- 模型堆叠与k-均值特征化
- 图像特征提取:人工提取与深度学习


内容简介

第 1 章从数字数据的基本特征工程开始:过滤,合并,缩放,日志转换和能量转换以及交互功能。

第 2 章和第 3 章深入探讨了自然文本的特征工程:bag-of-words,n-gram 和短语检测。

第 4 章将 tf-idf 作为特征缩放的例子,并讨论它的工作原理。

第 5 章讨论分类变量的高效编码技术,包括特征哈希和 bin-counting。

第 6 章中进行主成分分析,我们深入机器学习的领域。

第 7 章将 k-means 看作一种特征化技术,它说明了模型堆叠的有效理论。

第 8 章都是关于图像的,在特征提取方面比文本数据更具挑战性。在得出深度学习是最新图像特征提取技术的解释之前,我们着眼于两种手动特征提取技术 SIFT 和 HOG。

第 9 章中完成了一个端到端示例中的几种不同技术,为学术论文数据集创建了一个推荐器。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“FEML” 可以获取《【干货书】机器学习特征工程,217页pdf》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
3

相关内容

【干货书】Python机器学习,361页pdf
专知会员服务
267+阅读 · 2021年2月25日
【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
68+阅读 · 2021年2月7日
【干货书】Python机器学习及金融应用,384页pdf
专知会员服务
135+阅读 · 2021年1月1日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
机器学习速查手册,135页pdf
专知会员服务
342+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
【人工智能】一文带你读懂特征工程!
产业智能官
6+阅读 · 2018年9月9日
推荐 :一文带你读懂特征工程
数据分析
16+阅读 · 2018年8月26日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
Arxiv
31+阅读 · 2021年3月29日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
5+阅读 · 2020年3月26日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
VIP会员
相关VIP内容
【干货书】Python机器学习,361页pdf
专知会员服务
267+阅读 · 2021年2月25日
【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
68+阅读 · 2021年2月7日
【干货书】Python机器学习及金融应用,384页pdf
专知会员服务
135+阅读 · 2021年1月1日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
267+阅读 · 2020年6月10日
机器学习速查手册,135页pdf
专知会员服务
342+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
相关论文
Top
微信扫码咨询专知VIP会员