书籍描述 了解如何识别数据中异常、有趣、极端或不准确的部分。 数据科学家的主要任务有两个:发现数据中的模式以及找到异常。这些异常值通常是数据中最具信息量的部分,它们揭示了隐藏的洞察、新的模式以及潜在的问题。《在 Python 中进行异常值检测》是一本实用指南,教你如何识别数据集中那些偏离常规的部分,即使它们隐藏得很深或与预期的数据点交织在一起。 在《在 Python 中进行异常值检测》中,您将学习如何: • 使用标准 Python 库识别异常值 • 选择最合适的检测方法 • 结合多种异常值检测方法以提高结果 • 有效地解读您的结果 • 处理数值、分类、时间序列和文本数据 异常值检测是现代商业中的一个重要工具,无论是发现新产品、拓展市场,还是标记欺诈行为及其他可疑活动。本指南介绍了异常值检测的核心工具,以及利用数据科学家熟悉的 Python 数据堆栈的技术。入门时,您只需要具备基本的统计学知识和 Python 数据生态系统的理解。 购买纸质书籍附赠免费的 PDF 和 ePub 格式电子书,由 Manning 出版社提供。 技术背景 异常值——即那些与其他数据点不一致的值——可以帮助识别欺诈、进行安全审计、发现机器人活动,或仅仅评估数据集的质量。本书独特地介绍了您在查找、理解和响应数据中的异常时所需的异常值检测工具、技术和算法。 本书内容 《在 Python 中进行异常值检测》通过多个实际案例来阐述异常值检测的原则与实践,包括社交媒体、金融、网络日志及其他重要领域。您将探索一套全面的统计方法和机器学习方法,用于识别和解读表格、文本、时间序列和图像数据中的异常值。途中,您将学习如何使用 scikit-learn 和 PyOD,应用关键的异常值检测算法,并为实际应用场景增添一些高价值的技术。 本书内容包括: • 使用 Python 库识别异常值 • 结合多种异常值检测方法 • 解读检测结果 适读人群 本书适合熟悉 pandas 和 NumPy 等工具,并具备基本统计学知识的 Python 程序员。 作者介绍 Brett Kennedy 是一位拥有超过三十年软件开发和数据科学经验的数据科学家。 目录 第一部分
异常值检测概述 1. 简单异常值检测 1. 基于机器学习的异常值检测 1. 异常值检测过程
第二部分5. 使用 scikit-learn 进行异常值检测 6. PyOD 库 7. 其他异常值检测库和算法 第三部分8. 评估检测器和参数 9. 处理特定数据类型 10. 处理非常大或非常小的数据集 11. 用于异常值检测的合成数据 12. 集体异常值 13. 可解释的异常值检测 14. 异常值检测器的集成 15. 处理异常值检测预测 第四部分16. 基于深度学习的异常值检测 17. 时间序列数据 作者介绍
Brett Kennedy 是一位拥有超过三十年软件开发和数据科学经验的数据科学家。他在与财务审计、欺诈检测和社交媒体分析相关的异常值检测领域有着丰富的经验。此前,他曾领导一个专注于异常值检测的研究团队。