本书侧重于基于python的工具和技术,以帮助您在典型数据科学栈的所有方面(如统计分析、可视化、模型选择和特性工程)变得高效。
您将回顾日常业务流程中潜伏的低效率和瓶颈,并使用实际的解决方案来解决它们。重复数据科学任务的自动化是贯穿全书的一个关键思维模式。您将学习如何在Python生态系统中已经存在的高级库和包的帮助下扩展现有的编码实践,以高效地处理更大的数据集。
这本书关注的主题包括如何测量机器学习模型的内存占用和执行速度,数据科学管道的质量测试,以及为应用程序开发模块化数据科学管道。您将回顾Python库,这些库在自动化和加速日常任务方面非常有用。
最后,您将理解并执行传统方法之外的数据科学和机器学习任务,并利用Python数据科学生态系统的全部范围来提高生产率。
你将学习
为数据科学和机器学习编写快速高效的代码
构建文件且富有表现力的数据科学处理流程
测量机器学习方法的内存和CPU配置文件
充分利用GPU在数据科学任务中的潜力
高效地处理大而复杂的数据集
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“P395” 就可以获取《【2022新书】使用Python进行高效生产的数据科学:模块化、内存配置文件和并行/GPU处理,395页pdf》专知下载链接