书籍描述 了解如何识别数据中异常、有趣、极端或不准确的部分。 数据科学家的主要任务有两个:发现数据中的模式以及找到异常。这些异常值通常是数据中最具信息量的部分,它们揭示了隐藏的洞察、新的模式以及潜在的问题。《在 Python 中进行异常值检测》是一本实用指南,教你如何识别数据集中那些偏离常规的部分,即使它们隐藏得很深或与预期的数据点交织在一起。 在《在 Python 中进行异常值检测》中,您将学习如何: • 使用标准 Python 库识别异常值 • 选择最合适的检测方法 • 结合多种异常值检测方法以提高结果 • 有效地解读您的结果 • 处理数值、分类、时间序列和文本数据 异常值检测是现代商业中的一个重要工具,无论是发现新产品、拓展市场,还是标记欺诈行为及其他可疑活动。本指南介绍了异常值检测的核心工具,以及利用数据科学家熟悉的 Python 数据堆栈的技术。入门时,您只需要具备基本的统计学知识和 Python 数据生态系统的理解。 购买纸质书籍附赠免费的 PDF 和 ePub 格式电子书,由 Manning 出版社提供。 技术背景 异常值——即那些与其他数据点不一致的值——可以帮助识别欺诈、进行安全审计、发现机器人活动,或仅仅评估数据集的质量。本书独特地介绍了您在查找、理解和响应数据中的异常时所需的异常值检测工具、技术和算法。 本书内容 《在 Python 中进行异常值检测》通过多个实际案例来阐述异常值检测的原则与实践,包括社交媒体、金融、网络日志及其他重要领域。您将探索一套全面的统计方法和机器学习方法,用于识别和解读表格、文本、时间序列和图像数据中的异常值。途中,您将学习如何使用 scikit-learn 和 PyOD,应用关键的异常值检测算法,并为实际应用场景增添一些高价值的技术。 本书内容包括: • 使用 Python 库识别异常值 • 结合多种异常值检测方法 • 解读检测结果 适读人群 本书适合熟悉 pandas 和 NumPy 等工具,并具备基本统计学知识的 Python 程序员。 作者介绍 Brett Kennedy 是一位拥有超过三十年软件开发和数据科学经验的数据科学家。 目录 第一部分

异常值检测概述 1. 简单异常值检测 1. 基于机器学习的异常值检测 1. 异常值检测过程

第二部分5. 使用 scikit-learn 进行异常值检测 6. PyOD 库 7. 其他异常值检测库和算法 第三部分8. 评估检测器和参数 9. 处理特定数据类型 10. 处理非常大或非常小的数据集 11. 用于异常值检测的合成数据 12. 集体异常值 13. 可解释的异常值检测 14. 异常值检测器的集成 15. 处理异常值检测预测 第四部分16. 基于深度学习的异常值检测 17. 时间序列数据 作者介绍

Brett Kennedy 是一位拥有超过三十年软件开发和数据科学经验的数据科学家。他在与财务审计、欺诈检测和社交媒体分析相关的异常值检测领域有着丰富的经验。此前,他曾领导一个专注于异常值检测的研究团队。

成为VIP会员查看完整内容
8

相关内容

在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。 特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的方法)将对此类数据失效,除非进行了合适的聚集。相反,聚类分析算法可能可以检测出这些模式形成的微聚类。 有三大类异常检测方法。[1] 在假设数据集中大多数实例都是正常的前提下,无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。监督式异常检测方法需要一个已经被标记“正常”与“异常”的数据集,并涉及到训练分类器(与许多其他的统计分类问题的关键区别是异常检测的内在不均衡性)。半监督式异常检测方法根据一个给定的正常训练数据集创建一个表示正常行为的模型,然后检测由学习模型生成的测试实例的可能性。
【新书】图论与分解,201页pdf
专知会员服务
49+阅读 · 2月29日
【2022新书】文本与知识库问答系统,208页pdf
专知会员服务
78+阅读 · 2022年11月14日
【干货书】黎曼几何统计的医学图像分析,637页pdf
专知会员服务
52+阅读 · 2022年4月25日
【2022开放书】因果推理统计工具,377页pdf
专知会员服务
108+阅读 · 2022年4月20日
【2022新书】Python手册,275页pdf
专知会员服务
179+阅读 · 2022年3月18日
【干货书】贝叶斯统计分析方法,697页pdf
专知会员服务
121+阅读 · 2021年12月18日
【经典书】模式识别概率理论,654页pdf
专知会员服务
81+阅读 · 2021年1月21日
【干货书】Python高级数据科学分析,424页pdf
专知会员服务
115+阅读 · 2020年8月7日
【硬核书】树与网络上的概率,716页pdf
专知
23+阅读 · 2021年12月8日
【干货书】计算机科学离散数学,627页pdf
专知
61+阅读 · 2020年8月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月23日
Arxiv
0+阅读 · 12月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
19+阅读 · 2020年7月13日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
【新书】图论与分解,201页pdf
专知会员服务
49+阅读 · 2月29日
【2022新书】文本与知识库问答系统,208页pdf
专知会员服务
78+阅读 · 2022年11月14日
【干货书】黎曼几何统计的医学图像分析,637页pdf
专知会员服务
52+阅读 · 2022年4月25日
【2022开放书】因果推理统计工具,377页pdf
专知会员服务
108+阅读 · 2022年4月20日
【2022新书】Python手册,275页pdf
专知会员服务
179+阅读 · 2022年3月18日
【干货书】贝叶斯统计分析方法,697页pdf
专知会员服务
121+阅读 · 2021年12月18日
【经典书】模式识别概率理论,654页pdf
专知会员服务
81+阅读 · 2021年1月21日
【干货书】Python高级数据科学分析,424页pdf
专知会员服务
115+阅读 · 2020年8月7日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
相关论文
Arxiv
0+阅读 · 12月23日
Arxiv
0+阅读 · 12月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
19+阅读 · 2020年7月13日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员