机器学习模型在工业界真的创造价值了么?

【导读】看到标题你可能会有疑惑,因为我们可能经常听到的是“你在实际应用中如何使用机器学习模型的”。本文正是数据科学家Venkat Raman关于“机器学习在工业界应用”中的一些思考,其内容并不是给机器学习和数据科学相关人员泼冷水的,而是提醒我们“机器学习算法真的是解决问题所必须的吗”。诚然,有许多问题需要机器学习来解决,但是如果滥用(在完全没必要的问题中使用)可能会阻碍机器学习和数据科学的落地。本文并不指向技术,但是却带给我们比技术更重要的思考。



So, How Many ML Models You Have NOT Built?


读到这个题目,也许会觉得标题很奇怪,过去几年中,我们经常听到的都是“数据科学家需掌握的十大深度学习算法”、“数据科学家必备的­­二十个R语言工具包”、“数据科学家必学的三十个Python工具库”等等。这些以“必备”做标题的文章已经多到足以让一个数据科学新手缴械投降的地步。

我想阐述的问题是,现如今,面对过于丰富的信息,一个数据科学家新手很难找到自己的起点。


自己动手构建一个深度学习模型




这些“必备”文章为各个公司带来了一个更大的问题,每个公司都想建立自己的数据科学。

许多公司都想做数据科学,但由于之前毫无经验,导致公司招人的时候职位描述与面试过程非常奇怪,他们明显受到了“必备”文章的影响。


面试中,他们提问:“这是我们的问题,哪一种深度学习算法可以被用来解决它”?


之后,这个数据科学家快速的给出2-3个深度学习算法,紧接着公司就宣布他被录取了。入职后,他实现了在课堂中学到的算法,通过不错的性能指标给公司留下了好印象,紧接着,模型就被放到了产品中,但是却并未给公司带来收益,这是为什么呢?


主要原因是:他并没有足够的商业嗅觉,并且他认为自己的目标就是建造一个足够好的机器学习模型而已;而这个公司只有商业嗅觉,但并没有机器学习、统计学的相关知识。想象中的互补融合并未发生。


修船匠的故事




这是一个耳熟能详的故事,也许你没听过它,但你肯定听过它的变体。

一个轮船公司招来一个工程师去修理轮船的引擎,他的工具箱里包含着所有的工具,在一些简单的分析之后,他拿出了锤子敲向轮船引擎上的一个组件,紧接着,引擎恢复了工作。第二天,工程师发来了账单,5分钟的工作量标价10000美金。


公司管理者很惊讶,就叫他解释下账单明细,为什么这么贵。工程师发来如下明细:

1、敲击锤子:2美元

2、知道敲击位置:9998美元


现在,你可能认为我把重点放在了领域知识与经验上,是的,你的猜测是正确的。


轮船修理工与数据科学家类似




故事中,工程师的箱子里有所有的工具,但他只选择了一个锤子(可能是最简单的工具了),而且,他知道问题的关键所在。类似的,数据科学家在面对问题时,难道应该放弃最基本的分析方法,而去实现一个机器学习算法吗?

 

最小化损失函数



所有模型都是错的,但有一些很有用”。


在大多数机器学习算法中,我们尝试去最小化损失函数,但模型是现实世界的抽象,在模型中,现实是抽象的,并不真实。如果你仔细思考下,就会发现,在我们构建机器学习模型的过程中存在着更大的损失函数——模型与现实的差异度。那么,难道我们不应该建立尽可能少的模型去最小化模型与现实间的差异吗?


数据科学家,请像CEO一样去思考




我们数据科学家经常会陷入非常局限的技术思维中。我们只关注哪一种机器学习算法可以被应用于x,y,z问题;如何选择特征;如何减少特征数量;如何提高模型准确度等等。而不去想机器学习算法如何为公司带来收益?应用算法后可以为公司节省多少开销?利润率是否会被提升?


最重要的问题是,我们忘记了问自己“机器学习算法真的是解决问题所必须的吗”?


我知道,最后的问题会给我引来批评,就好像在一群鸽子中放了一只猫,你们可能会说,“你想让我们丢掉工作吗”?


回答当然是NO。有许多问题需要机器学习来解决,但并不是所有。大多数商业问题都可以被简单的分析或基础方法解决掉。


导致我们丢掉工作的是机器学习算法的过度应用。我已经看到机器学习方法被应用到完全不必要的问题上,糟糕的是,公司仍然在为这个想法大量投入,这是一个定时炸弹。一旦公司发现利润率正在负增长,他们将阻止数据科学的完全落地,我们都知道在一个持负面态度的用户面前开展工作是多么艰辛,没有数据科学,就没有数据科学家。


将要到来的数据科学审查员




对于数据科学的愿景,工业界一直抱着期待与警惕的心理。大多数落地的数据科学解决方案导致的低利润率,使得工业界对数据科学越来越不抱希望。


我可以预测到未来会有一个新的职位产生:“数据科学审查员”,公司将会雇佣那些有经验的数据科学家(统计学家、应用数学家)去审查各个数据科学项目。


在我近期的咨询项目中,我觉得特别像一个审查员。我被要求临时构建出一个数机器学习模型,但是经过分析,发现这个模型不仅是错的,而且这个商业问题根本不需要使用机器学习方法。间接地结果是,这个客户对于数据科学家不再抱有好印象,并且感到在情绪和经济上受到了欺骗。


也许,下次在问到“你构建过多少深度学习算法”这类问题时,会变成“你没有构建过多少深度学习算法”。


参考链接:

https://towardsdatascience.com/so-how-many-ml-models-you-have-not-built-e692f549b163

-END-

专 · 知

人工智能领域主题知识资料查看获取【专知荟萃】人工智能领域26个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请扫一扫如下二维码关注我们的公众号,获取人工智能的专业知识!

请加专知小助手微信(Rancho_Fang),加入专知主题人工智能群交流!

点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员