编译 | AI 科技大本营
参与 | 林椿眄
校对 | Leo
机器学习 (ML) 和人工智能 (AI) 是当今社会的热门话题。所以,最近有很多产品经理及那些有意向转向产品经理职位的人向我询问,如何才能成为更好的 ML 产品经理。
由于机器学习和产品管理之间的交集是一个相当丰富的话题,一篇文章不足以详细地阐述所有有关的内容,因此我打算把它分成三部分来分别说明:
第一部分——问题定义:什么样的机器学习产品是最符合用户需求的。
第二部分——机器学习的使用技巧:对于产品经理来说,需要掌握哪些特殊技巧来构建机器学习产品。
第三部分——注意事项:使用机器学习构建产品的过程中应注意哪些问题。
这篇文章中我们将总结在什么情景设置下,适合应用机器学习技术来解决你的问题。
▌聚焦于用户需求
什么时候适合运用机器学习来构建优质的产品呢?
首先我们要关注用户的需求。通常,人们会习惯性地认为机器学习是以某种方式从根本上改变了产品经理的技能组合。
这是个常见的认知错误!
机器学习本身并不是目的,它只是解决用户真实需求的一种工具。我发现很多公司都有很棒的人工智能技术,并且已经在许多实际应用中验证了这些技术的实用性。如果你开发了一个很酷的新技术,想在现实中应用它,那么你需要考虑的是这项技术能够解决什么问题,或者通过这项技术可以增强哪些方面的经验。
话虽如此,还是有很多人工智能的初创公司利用机器学习提出了一些很棒的创新技术,而这些并不总是专注于解决用户的问题/需求。虽然这些创新技术推动了技术前沿的发展,并在生态系统中扮演着非常重要,但是这些初创公司往往都会被收购,因为他们很难找到适合自己公司发展的产品市场。
作为一个产品经理,如果你尝试构建一些机器学习产品来服务于用户,那么用户的问题及需求应该是你需要关注的焦点。
如何判断机器学习技术是否可以用来解决用户的需求/业务问题,或者说在什么情境下适合运用这项技术呢?
我们都知道,机器学习技术最适合用于解决一些与模式识别相关的问题,而通常这些问题又可以分为几种不同的类型。
▌用户被大量的数据淹没
很多时候,用户需要在海量的数据中做出选择和决策,处理这些问题的最佳工具就是机器学习/人工智能技术。Google 和 Bing 等搜索引擎公司就是使用各种机器学习算法来为用户搜索提供最佳结果。
例如,当你搜索食谱时,搜索引擎会自动学习你的搜索模式,以及与你类似的搜索和点击行为的模式,并为你自动筛选出最贴近的食谱作为第一个结果。
此外,分类问题也能够利用机器学习来解决。例如,如果你希望将数百万篇教育类的帖子进行分类,并且已经利用一些教育类的文档训练好一个机器学习模型,那么这个模型可以帮助你自动分类这些帖子。
▌需要复杂认知能力的情况
现实中很多问题的解决都需要模型具有复杂的认知能力。例如,无人驾驶汽车需要能够了解道路周围复杂的环境。一个用于自动分类照片的应用程序,需要能够准确地检测图片中的地点,人员及物体等信息。
解决这些问题通常都需要复杂的认知技能,而构建这类智能模型的唯一方法就是用大量的数据来“喂给”智能模型,并通过一些模式识别的方法让模型开始学习。
▌需要预测的情况
现实中,最常见的一类问题是预测用户的喜好,如用户是否喜欢新闻中的某个故事,是否会喜欢 Dropbox 中的内容等。因此,对于一个预测问题,需要预测用户下一步的行为,机器学习将会是一个很好的选择。
同样,如果你想预测 2018 年 12 月的销售情况 (前提是业务基础没有大幅改变) ,只需要提供过去几年的历史销售数据,一个机器学习模型就可以成功地预测未来的销售情况,即使考虑到季节性问题也是如此。机器学习模型不仅可以用于销售情况的预测,对于其他问题,如库存的使用情况也可以解决。
▌异常检测
机器学习的另一大应用方向是对数据进行异常检测。由于机器学习擅长处理模式识别问题,因此任何不符合常态的行为模式都可以很容易被检测到。
其中,信用卡欺诈行为的检测就是机器学习在这个领域的一个主要应用。如果用户的信用卡使用模式与常规行为不同,则可能表明卡片正被盗用。同样,如果黑客试图访问企业的内部网,查看入侵者的访问模式,机器学习模型可以通过学习这种模式来轻松地标记这种行为,并在下次发生时对这些行为进行拦截。
▌为你的决策提供建议
如果你希望帮助用户做出某些决策,如提供一些关于购买、访问、观看等方面的建议,机器学习也是一个很好的工具。
机器学习模型通过观察类似人的行为模式,购买类似的产品,访问类似的网站,为用户的决策提供建议,减轻决策制定时的认知负担。通过查看这些推荐,用户即使不用翻看整个视频目录或遍历所有搜索结果也能找到他们感兴趣的东西。
▌人机交互项目
如果你希望建立人机交互的项目,提供与人类交流的服务,那么你需要了解自然语言处理的相关知识,这种情况下机器学习也将是个不错的选择。
一些移动端的语音助手,如 Alexa,Siri 和 Google Assistant 等,其背后的核心技术都能够将人类语言翻译为可执行的任务。我们提供大量关于语言,语音语调的数据,让机器学习模型自动学习并理解语音信息,进而将语音映射到语言,再将语言指令映射到任务,实现从人类语言到需求任务的转换。
▌增强/创造新的体验
在机器学习应用中,增强或创造新体验是最令人兴奋的一项创新技术。
这项技术就是应用机器学习实现一种从无到有的过程,为人类带来全新的体验。SnapChat 滤镜就是一个成功的例子,它就是使用机器学习技术来增强用户体验:通过使用面部识别算法,SnapChat滤镜可以检测出脸部的轮廓,从而将一些创意滤镜叠加在脸部上,创造出更有趣、更新颖的图片。
你还接触过哪些机器学习新技术呢,给你带来怎样的新体验呢?来分享一下你的经历吧。
原文链接:
https://towardsdatascience.com/machine-learning-for-product-managers-part-i-problem-mapping-5436132c3a6e
选自Medium
作者:William Koehrsen
机器之心编译
参与:Nurhachu Null、刘晓坤
我们倾向于使用准确率,是因为熟悉它的定义,而不是因为它是评估模型的最佳工具!精度(查准率)和召回率(查全率)等指标对衡量机器学习的模型性能是非常基本的,特别是在不平衡分布数据集的案例中,在周志华教授的「西瓜书」中就特别详细地介绍了这些概念。
GitHub 地址:https://github.com/WillKoehrsen/Data-Analysis/blob/master/recall_precision/recall_precision_example.ipynb
为分类任务选择正确的衡量指标
倘若某人声称创建了一个能够识别登上飞机的恐怖分子的模型,并且准确率(accuracy)高达 99%。你相信吗?好了,有这么一个模型:将从美国机场起飞的所有乘客简单地标注为非恐怖分子。已知美国全年平均有 8 亿人次的乘客,并且在 2000-2017 年间共发现了 19 名恐怖分子,这个模型达到了接近完美的准确率——99.9999999%。这听起来确实令人印象深刻,但是我怀疑美国国土安全局不会在近期购买这个模型。尽管这个模型拥有接近完美的准确率,但是在这个问题中准确率显然不是一个合适的度量指标。
恐怖分子检测是一个不平衡的分类问题:我们需要鉴别的类别有两个——恐怖分子和非恐怖分子,其中一个类别代表了极大多数的数据点。另一个不平衡分类问题出现在当疾病在公众中的发病率很低时的疾病监测。在这两种情况下,正例类别——疾病或恐怖分子,远远少于负例类别的数量。这种问题是数据科学中比较常见的例子,其中准确率并不是评估模型性能的很好的衡量标准。
直观地说,我们知道在恐怖分子检测的问题中宣布所有的数据点为负例(非恐怖分子)是毫无裨益的,相反,我们应该聚焦于正例(恐怖分子)的识别。直觉告诉我们,我们应该最大化的是统计学上称为召回率或查全率(recall)的衡量指标,或者是最大化模型找到数据集中所有相关案例的能力。召回率的准确定义是:真正例除以(真正例+假反例)的和,如下图所示。真正例(true positives)是被真确分类的正例数据点,假反例(false negatives)是被错误分类的负例数据点。在恐怖分子检测的例子中,TP 是被正确识别的恐怖分子,FN 是模型误分类为非恐怖分子的恐怖分子的数据点。召回率可以被理解为模型找到数据集中所有感兴趣的数据点的能力。
你可能注意到了这个等式中的一些细节:如果我们将所有的个体都预测为恐怖分子,那么模型的召回率就是 1.0!这样我们就得到了一个完美的模型吗?当然,不是!与数据科学中的绝大多数概念一样,在我们想要最大化的指标之间存在一个权衡。在召回率的例子中,当召回率增大的时候,精度就会减小。同样,直觉告诉我们,一个将 100% 的乘客标记为恐怖分子的模型可能是不可用的,因为我们必须禁止每一个乘客的飞行。统计学为我们提供了表达直觉的词汇:这个新的模型是低精度(precision)的,或者说较低的仅识别相关数据点的能力。
精度被定义为真正例除以(真正例+假正例)的和,如下图所示。假正例(FP)指的是模型将实际上是反例的样本误判为正例的情况,或者说,在我们的例子中指的是那些被模型判断为恐怖分子,而实际上不是恐怖分子的个体。召回率(查全率)表达的是模型找到数据集中相关实例的能力,而精度(查准率)表达模型找到的数据点中实际相关的比例。
现在我们可以看到,第一个模型给所有的个体标上了非恐怖分子的标签,这个模型是不能使用的。尽管它有着近乎完美的准确率,但是它的精度和召回率都是零,因为没有 TP(真正例)!假设我们轻微地修改一下模型,然后将一个个体正确地识别为恐怖分子。现在,精度是 1(没有假正例,FP),但是召回率很低,因为实际上会有很多假反例(FN)。假设我们走到了另一个极端,将所有的乘客标记为恐怖分子,召回率就会是 1——我们将抓住每一个恐怖分子,但是精度会特别低,我们最终会拘留很多无辜的人。换言之,随着精度的增加,召回率会降低,反之亦然。
精度—召回率权衡
结合精度和召回率
在某些情况中,我们也许需要以牺牲另一个指标为代价来最大化精度或者召回率。例如,在之前的例子中,在对患者进行随访检查的初步疾病筛查中,我们可能希望得到接近于 1 的召回率—我们想找到所有实际患病的患者。如果随访检查的代价不是很高,我们可以接受较低的精度。然而,如果我们想要找到精度和召回率的最佳组合,我们可以使用 F1 score 来对两者进行结合。
F1 score 是对精度和召回率的调和平均:
我们使用调和平均而不是简单的算术平均的原因是:调和平均可以惩罚极端情况。一个具有 1.0 的精度,而召回率为 0 的分类器,这两个指标的算术平均是 0.5,但是 F1 score 会是 0。F1 score 给了精度和召回率相同的权重,它是通用 Fβ指标的一个特殊情况,在 Fβ中,β 可以用来给召回率和精度更多或者更少的权重。(还有其他方式可以结合精度和召回率,例如二者的几何平均,但是 F1 score 是最常用的。) 如果我们想创建一个具有最佳的精度—召回率平衡的模型,那么就要尝试将 F1 score 最大化。
可视化精度和召回率
我已经向你抛出了几个新术语,接下来我将通过一个例子向你展示它们在实际中是如何使用的。在使用之前,我们要简单地谈一谈精度和召回率的概念。
首先要介绍一下混淆矩阵(confusion matrix),给定一个模型的预测标签时,它可以被用来快速计算精度和召回率。二分类的混淆矩阵总共包含四个不同的结果:真正例(TP)、假正例(FP)、真反例(TN),以及假反例(FN)。列表示真实值,行表示预测值。行和列的交叉点指的就是这四种结果。例如,如果我们将一个数据点预测为正例,但是它实际上是反例,那么这就是一个假正例。
用混淆矩阵计算精度和召回率需要找到矩阵中对应的值,并应用以下的等式进行计算。
其他的用来展示分类模型性能的可视化技术是受试者特征曲线(ROC 曲线,Receiver Operating Characteristic curve)。别被这个复杂的名词吓到!这个思想是相当简单的:ROC 曲线展示了当改变在模型中识别为正例的阈值时,召回率和精度的关系会如何变化。如果我们有一个用来识别疾病的模型,我们的模型可能会为每一种疾病输出介于 0 到 1 之间的一个分数,为了将某个病人标记为患有某种疾病(一个正例标签),我们为每种疾病在这个范围内设置一个阈值,通过改变这个阈值,我们可以尝试实现合适的精度和召回率之间的平衡。
ROC 曲线在 Y 轴上画出了真正例率(TPR),在 X 轴上画出了假正例率 (FPR)。TPR 是召回率,FPR 是反例被报告为正例的概率。这两者都可以通过混淆矩阵计算得到。
下图是一个典型的 ROC 曲线:
黑色对角线表示随机分类器,红色和蓝色曲线表示两种不同的分类模型。对于给定的模型,只能对应一条曲线。但是我们可以通过调整对正例进行分类的阈值来沿着曲线移动。通常,当降低阈值时,会沿着曲线向右和向上移动。
在阈值为 1.0 的情况下,我们将位于图的左下方,因为没有将任何数据点识别为正例,这导致没有真正例,也没有假正例(TPR = FPR = 0)。当降低阈值时,我们将更多的数据点识别为正例,导致更多的真正例,但也有更多的假正例 ( TPR 和 FPR 增加)。最终,在阈值 0.0 处,我们将所有数据点识别为正,并发现位于 ROC 曲线的右上角 ( TPR = FPR = 1.0 )。
最后,我们可以通过计算曲线下面积 ( AUC ) 来量化模型的 ROC 曲线,这是一个介于 0 和 1 之间的度量,数值越大,表示分类性能越好。在上图中,蓝色曲线的 AUC 将大于红色曲线的 AUC,这意味着蓝色模型在实现准确度和召回率的权衡方面更好。随机分类器 (黑线) 实现 0.5 的 AUC。
回顾
我们已经介绍了几个判断模型性能的属性,每个属性的定义都不是很复杂,但是结合在一起就有点复杂了。让我们通过一个例子做一个快速的回顾来巩固一下这些思想。
对于二分类问题:
真正例(TP):实际上是正例的数据点被标记为正例
假正例(FP):实际上是反例的数据点被标记为正例
真反例(TN):实际上是反例的数据点被标记为反例
假反例(FN):实际上是正例的数据点被标记为反例
召回率和精度衡量指标:
召回率(R):分类模型识别所有相关实例的能力
精度(P):分类模型仅仅返回相关实例的能力
F1 score:使用调和平均结合召回率和精度的指标
召回率和精度的可视化:
混淆矩阵:展示分类模型的真实和预测标签的对应结果。
受试者特征曲线(ROC 曲线):画出真正例率(TPR)和假正例率(FPR),并将此作为模型归类正例阈值的函数。
曲线下面积(AUC):基于 ROC 曲线下方的面积,计算分类模型总体性能的指标。
实例应用
我们的任务是为 100 名病人诊断一种在普通人群中患病率是 50% 的疾病。我们将假设一个黑盒模型,我们输入关于患者的信息,并得到 0 到 1 之间的分数。我们可以改变将患者标记为正例 (有疾病) 的阈值,以最大化分类器性能。我们将以 0.1 为增量从 0.0 到 1.0 评估阈值,在每个步骤中计算 ROC 曲线上的精度、召回率、F1 score 以及在 ROC 曲线上的位置。以下是每个阈值的分类结果:
模型在每个阈值下的结果
我们将以阈值为 0.5 为例计算对应的召回率、精度、真正例率、假正例率。首先我们得到混淆矩阵:
阈值为 0.5 时的混淆矩阵
我们可以利用混淆矩阵中的数值来计算召回率、精度和 F1 score:
然后计算真正例率和假正例率来确定阈值为 0.5 时,模型在 ROC 曲线上对应的点。
为了得到整个 ROC 曲线,我们在每个阈值下都进行这个过程。你可能会想,这是相当乏味的,所以,我们用 python 语言来代替手工计算。用来做这些计算的 Juoyter Notebook 放在了 github 上,每个人都可以看到。最终的 ROC 曲线如下所示,点上面的数字是阈值。
在这里我们可以看到,所有的概念都汇集到一起了!在阈值等于 1.0 的点,我们没有将任何病人归类为患病,因此模型的召回率和精度都是 0。随着阈值的减小,召回率增加了,因为我们发现更多的患者患有该疾病。然而,随着召回率的增加,精度会降低,因为除了增加真正例之外,还会增加假正例。在阈值为 0.0 的时候,我们的召回率是完美的——我们发现所有的患者都患有这种疾病——但是精度很低,因为有很多假正例。通过更改阈值并选择最大化 F1 score 的阈值,我们可以沿着给定模型的曲线移动。要改变整个曲线,我们需要建立一个不同的模型。
在每个阈值下最终模型的统计量如下表:
基于 F1 score,整体最佳的模型出现在阈值为 0.5 的地方。如果我们想要在更大程度上强调精度或者召回率,我们可以选择这些指标上最佳时对应的模型。
结论
我们倾向于使用准确率,因为每个人都知道它意味着什么,而不是因为它是完成任务的最佳工具!虽然更适合的度量指标 (如召回率和精度) 看起来可能很陌生,但我们已经直观地了解了为什么它们在某些问题 (如不平衡的分类任务) 中有着更好的表现。统计学为我们提供了计算这些指标的形式化定义和方程。数据科学是关于寻找解决问题的正确工具的学科,而且在开发分类模型时,我们常常需要超越准确率(accuracy)的单一指标。了解召回率、精度、F1 score 和 ROC 曲线使我们能够评估分类模型,并应使我们怀疑是否有人仅仅在吹捧模型的准确率,尤其是对于不平衡的问题。正如我们所看到的,准确率(accuracy)并不能对几个关键问题提供有用的评估,但现在我们知道如何使用更聪明的衡量指标!
原文链接:https://towardsdatascience.com/beyond-accuracy-precision-and-recall-3da06bea9f6c
人工智能赛博物理操作系统
AI-CPS OS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。
AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:
重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?
重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?
重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?
AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
精细:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。
高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。
边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
给决策制定者和商业领袖的建议:
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;
开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。
子曰:“君子和而不同,小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
产业智能官 AI-CPS
用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能金融”、“智能零售”、“智能驾驶”、“智能城市”;新模式:“财富空间”、“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”。
官方网站:AI-CPS.NET
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com