如今,企业创建的机器学习(ML)模型中,有一半以上都没有投入生产。主要是面临技术上的操作挑战和障碍,还有组织上的。不管怎样,最基本的是,不在生产中的模型不能提供业务影响。
这本书介绍了MLOps的关键概念,帮助数据科学家和应用工程师不仅可以操作ML模型来驱动真正的业务变化,而且还可以随着时间的推移维护和改进这些模型。通过基于世界各地众多MLOps应用的经验教训,九位机器学习专家对模型生命周期的五个步骤——构建、预生产、部署、监控和治理——提供了深刻见解,揭示了如何将稳健的MLOps过程贯穿始终。
https://www.oreilly.com/library/view/introducing-mlops/9781492083283/
这本书帮助你:
通过减少整个ML管道和工作流程的冲突,实现数据科学价值 通过再训练、定期调整和完全重构来改进ML模型,以确保长期的准确性 设计MLOps的生命周期,使组织风险最小化,模型是公正的、公平的和可解释的 为管道部署和更复杂、不那么标准化的外部业务系统操作ML模型
近年来,机器学习取得了显著进展,提供了一些新功能,比如创建复杂的、可计算的文本和图像表示。这些功能催生了新产品,如基于图像内容的图像搜索、多种语言之间的自动翻译,甚至是真实图像和声音的合成。同时,机器学习已经在企业中被广泛采用,用于经典的用例(例如,预测客户流失、贷款违约和制造设备故障)。
在机器学习取得成功的地方,它是非常成功的。
在许多情况下,这种成功可以归因于对大量训练数据的监督学习(结合大量计算)。总的来说,有监督的学习系统擅长于一项任务:预测。当目标是预测一个结果,并且我们有很多这个结果的例子,以及与它相关的特征时,我们可能会转向监督学习。
随着机器学习的普及,它在业务流程中的影响范围已经从狭窄的预测扩展到决策制定。机器学习系统的结果经常被用来设定信用限额,预测制造设备故障,以及管理我们的各种新闻推送。当个人和企业试图从这些复杂和非线性系统提供的信息中学习时,更多(和更好)的可解释性方法已经被开发出来,这是非常重要的。
然而,仅仅基于预测的推理有一些基本的限制。例如,如果银行提高客户的信用额度会发生什么?这些问题不能用建立在先前观察到的数据上的相关模型来回答,因为它们涉及到客户选择的可能变化,作为对信用限额变化的反应。在很多情况下,我们的决策过程的结果是一种干预——一种改变世界的行动。正如我们将在本报告中展示的,纯粹相关的预测系统不具备在这种干预下进行推理的能力,因此容易产生偏差。对于干预下的数据决策,我们需要因果关系。
即使对于纯粹的预测系统(这是监督学习的强项),应用一些因果思维也会带来好处。根据因果关系的定义,它们是不变的,这意味着它们在不同的情况和环境中都是正确的。对于机器学习系统来说,这是一个非常理想的特性,在机器学习系统中,我们经常根据我们在训练中没有看到的数据进行预测;我们需要这些系统具有适应性和健壮性。
因果推理和机器学习的交集是一个迅速扩展的研究领域。它已经产生了可供主流采用的功能——这些功能可以帮助我们构建更健壮、可靠和公平的机器学习系统。
本书介绍了因果推理,因为它涉及很多数据科学和机器学习工作。我们引入因果图,着重于消除理解的概念障碍。然后我们利用这个理解来探索关于不变预测的最新想法,它给高维问题带来了因果图的一些好处。通过附带的原型,我们展示了即使是经典的机器学习问题,如图像分类,也可以从因果推理工具中受益。
获得金融、医疗保健和零售领域的机器学习实用技能。这本书通过提供这些领域的案例研究,使用了动手的方法:你将看到如何使用机器学习作为商业增强工具的例子。作为一名领域专家,您不仅会发现机器学习在金融、医疗保健和零售领域是如何应用的,而且还会通过实施机器学习的实际案例研究进行工作。
使用Python的机器学习应用程序分为三个部分,分别针对每个领域(医疗保健、金融和零售)。每一节都以机器学习和该领域的关键技术进展的概述开始。然后,您将通过案例研究了解更多关于组织如何改变其所选择市场的游戏规则。这本书有实际的案例研究与Python代码和领域特定的创新想法赚钱的机器学习。
你会学到什么
这本书是给谁的
本书解释了数据科学中至关重要的统计学概念,介绍如何将各种统计方法应用于数据科学。作者以易于理解、浏览和参考的方式,引出统计学中与数据科学相关的关键概念;解释各统计学概念在数据科学中的重要性及有用程度,并给出原因。
统计方法是数据科学的关键部分,但很少有数据科学家有任何正式的统计培训。关于基本统计的课程和书籍很少从数据科学的角度涵盖这个主题。这本实用指南解释了如何将各种统计方法应用到数据科学中,告诉你如何避免它们被误用,并就什么是重要的、什么是不重要的给出建议。
许多数据科学资源包含了统计方法,但缺乏更深层次的统计视角。如果您熟悉R编程语言,并且对统计学有一定的了解,那么本文的快速引用将以一种可访问、可读的格式填补空白。
通过这本书,你会学到:
https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/
学习设计、构建和部署由机器学习(ML)支持的应用程序所必需的技能。通过这本亲力亲为的书,您将构建一个示例ML驱动的应用程序,从最初的想法到部署的产品。数据科学家、软件工程师和产品经理—包括有经验的实践者和新手—将逐步学习构建真实的ML应用程序所涉及的工具、最佳实践和挑战。
作者Emmanuel Ameisen是一位经验丰富的数据科学家,他领导了一个人工智能教育项目,通过代码片段、插图、截图和对行业领袖的采访展示了实用的ML概念。第1部分将告诉您如何计划ML应用程序并度量成功。第2部分解释了如何构建一个工作的ML模型。第三部分演示了改进模型的方法,直到它满足您最初的设想。第4部分介绍部署和监控策略。
这本书会对你有所帮助:
机器学习正在对软件的设计方式产生巨大的影响,以便软件能够跟上商业变化的步伐。机器学习之所以如此引人注目,是因为它帮助您使用数据来驱动业务规则和逻辑。这有什么不同呢?在传统的软件开发模型中,程序员根据业务的当前状态编写逻辑,然后添加相关数据。然而,商业变革已经成为常态。几乎不可能预测市场会发生什么变化。机器学习的价值在于它允许你不断地从数据中学习并预测未来。这一强大的算法和模型集正在被跨行业使用,以改进流程并洞察数据中的模式和异常。但是机器学习不是一个人的努力;这是一个需要数据科学家、数据工程师、业务分析师和业务领导协作的团队流程。机器学习的力量需要协作,所以重点是解决业务问题。
https://www.ibm.com/downloads/cas/GB8ZMQZ3
https://www.goodreads.com/book/show/40219140-machine-learning-for-dummies-ibm-limited-edition
在Jupyter Notebook环境中使用Python和TensorFlow 2.0创建、执行、修改和共享机器学习应用程序。这本书打破了编程机器学习应用程序的任何障碍,通过使用Jupyter Notebook而不是文本编辑器或常规IDE。
您将从学习如何使用Jupyter笔记本来改进使用Python编程的方式开始。在获得一个良好的基础与Python工作在木星的笔记本,你将深入什么是TensorFlow,它如何帮助机器学习爱好者,以及如何解决它提出的挑战。在此过程中,使用Jupyter笔记本创建的示例程序允许您应用本书前面的概念。
那些刚接触机器学习的人可以通过这些简单的程序来学习基本技能。本书末尾的术语表提供了常见的机器学习和Python关键字和定义,使学习更加容易。
你将学到什么
程序在Python和TensorFlow 解决机器学习的基本障碍 在Jupyter Notebook环境中发展
这本书是给谁的
理想的机器学习和深度学习爱好者谁对Python编程感兴趣使用Tensorflow 2.0在Jupyter 笔记本应用程序。了解一些机器学习概念和Python编程(使用Python version 3)的基本知识会很有帮助。
有几个主要的主题贯穿全书。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。
统计与因果。即使有无限多的数据,我们有时也无法计算一些因果量。相比之下,很多统计是关于在有限样本中解决不确定性的。当给定无限数据时,没有不确定性。然而,关联,一个统计概念,不是因果关系。在因果推理方面还有更多的工作要做,即使在开始使用无限数据之后也是如此。这是激发因果推理的主要区别。我们在这一章已经做了这样的区分,并将在整本书中继续做这样的区分。
识别与评估。因果效应的识别是因果推论所独有的。这是一个有待解决的问题,即使我们有无限的数据。然而,因果推理也与传统统计和机器学习共享估计。我们将主要从识别因果效应(在第2章中,4和6)之前估计因果效应(第7章)。例外是2.5节和节4.6.2,我们进行完整的例子估计给你的整个过程是什么样子。
介入与观察。如果我们能进行干预/实验,因果效应的识别就相对容易了。这很简单,因为我们可以采取我们想要衡量因果效应的行动,并简单地衡量我们采取行动后的效果。观测数据变得更加复杂,因为数据中几乎总是引入混杂。
假设。将会有一个很大的焦点是我们用什么假设来得到我们得到的结果。每个假设都有自己的框来帮助人们注意到它。清晰的假设应该使我们很容易看到对给定的因果分析或因果模型的批评。他们希望,清晰地提出假设将导致对因果关系的更清晰的讨论。
C语言深度指南《Modern C》第二版上线,内容更新,加入插图,是新视角指南的非常好书
地址: https://www.manning.com/books/modern-c
Modern C关注现代C编程的新特性和独特之处。本书是基于最新的C标准,并提供了一个最新的视角,关于这个久经考验的真实的语言。
对这项技术
对于一门有50年历史的编程语言来说,C语言是非常现代的。无论您是在编写嵌入式代码、低级系统例程还是高性能应用程序,C语言都能应对挑战。这本独特的书,基于最新的C标准,揭示了这一可靠语言的现代视角。
关于这本书
Modern C向您介绍了现代C编程,强调了这种强大语言的独特和新特性。对于新的C程序员,它从基础开始,比如结构、语法、编译和执行。在此基础上,您将进一步了解控制结构、数据类型、操作符和函数,从而更深入地了解底层所发生的事情。在最后几章中,您将探索性能考虑因素、可重入性、原子性、线程和类型泛型编程。在进行概念强化练习和技能磨练挑战的过程中,您将编写代码。
里面有什么
【导读】这本书对自动化机器学习(AutoML)的一般化方法进行了全面的阐述,并且收集了以这些方法为基础的系统的描述和一系列关于自动化机器学习系统领域的挑战。最近,机器学习在商业领域取得的成就和该领域的快速增长对机器学习产生了大量的需求,尤其是可以很容易地使用,并且不需要专家知识的机器学习方法。然而,当前许多表现优异的机器学习方法的大多都依赖人类专家去手动选择适当的机器学习架构以及模型的超参数(深度学习架构或者更加传统的机器学习方法)。为了克服这个问题,AutoML基于优化原理和机器学习本身去逐步实现机器学习的自动化。这本书可以为为研究人员和高年级学生提供一个进入这个快速发展的领域的切入点,同时也为打算在工作中使用AutoML的从业者提供参考。
第一部分 自动机器学习方法
每个机器学习系统都有超参数,而自动化机器学习最基本的任务就是自动设置这些超参数来优化性能。尤其是最近的深度神经网络严重依赖对于神经网络的结构、正则化和优化等超参数的选择。自动优化超参数(HPO)有几个重要的用例:
第二部分 自动化机器学习系统
越来越多的非领域专家开始学习使用机器学习工具,他们需要非独立的解决方案。机器学习社区通过开源代码为这些用户提供了大量复杂的学习算法和特征选择方法,比如WEKA和mlr。这些开源包需要使用者做出两种选择:选择一种学习算法,并通过设置超参数对其进行定制。然而想要一次性做出正确的选择是非常具有挑战性的,这使得许多用户不得不通过算法的声誉或直觉来进行选择,并将超参数设置为默认值。当然,采用这种方法所获得的性能要比最佳方法进行超参数设置差得多。
第三部分 自动化机器学习面临的挑战
直到十年之前,机器学习还是一门鲜为人知的学科。对于机器学习领域的科学家们来说,这是一个“卖方市场”:他们研究产出了大量的算法,并不断地寻找新的有趣的数据集。大的互联网公司积累了大量的数据,如谷歌,Facebook,微软和亚马逊已经上线了基于机器学习的应用,数据科学竞赛也吸引了新一代的年轻科学家。如今,随着开放性数据的增加,政府和企业不断发掘机器学习的新的应用领域。然而,不幸的是机器学习并不是全自动的:依旧很难确定哪个算法一定适用于哪种问题和如何选择超参数。完全自动化是一个无界的问题,因为总是有一些从未遇到过的新设置。AutoML面临的挑战包括但不限于: