本书侧重于基于python的工具和技术,以帮助您在典型数据科学栈的所有方面(如统计分析、可视化、模型选择和特性工程)变得高效。
您将回顾日常业务流程中潜伏的低效率和瓶颈,并使用实际的解决方案来解决它们。重复数据科学任务的自动化是贯穿全书的一个关键思维模式。您将学习如何在Python生态系统中已经存在的高级库和包的帮助下扩展现有的编码实践,以高效地处理更大的数据集。
这本书关注的主题包括如何测量机器学习模型的内存占用和执行速度,数据科学管道的质量测试,以及为应用程序开发模块化数据科学管道。您将回顾Python库,这些库在自动化和加速日常任务方面非常有用。
最后,您将理解并执行传统方法之外的数据科学和机器学习任务,并利用Python数据科学生态系统的全部范围来提高生产率。
你将学习