你的人工智能技能没你想的那么有价值

2019 年 1 月 13 日 Python程序员

我们正处于人工智能热潮之中。机器学习专家的薪水高得惊人,投资者在遇到人工智能初创企业时,很乐于敞开心扉,打开支票簿。这样做是正确的:这是那些每一代人发生一次的变革性技术之一。这项技术会留下来,并将改变我们的生活。

这并不意味着让你的人工智能创业成功是件容易的事。我认为,在任何人试图围绕人工智能进行创业之前,都存在一些重要的陷阱。

你的AI技能的价值正在下降

我的儿子和我,图片使用Artistic Style Transfer处理。

2015年,我还在谷歌工作,开始玩DistBelief(后来改名为TensorFlow)。它糟糕透了。它写起来非常笨拙,主要的抽象并不完全符合你的期望。让它在谷歌构建系统之外工作简直是是白日做梦。

在2016年底,我致力于在组织病理学图像中检测乳腺癌的概念验证。我想使用传输学习:采用了当时谷歌最好的图像分类体系架构Inception,在我的癌症数据上重新训练它。我将使用谷歌提供的经过预先训练的初始权重,只是更改顶层以匹配我所做的工作。经过长时间的尝试,以及TensorFlow中出现的错误,我终于学会了如何操作不同的层,并使其大多数都可以工作。这项工作需要很大的毅力和阅读TensorFlow的资料。至少我不用太担心依赖关系,因为TensorFlow的开发者很仁慈地为我们准备了一个Docker映像。

2018年初,由于缺乏复杂性,上述任务并不适合作为实习生的第一个项目。多亏了Keras (TensorFlow顶层的一个框架),你只需几行Python代码就可以完成它,而且不需要深入理解你正在做什么。仍然有点痛苦的是超参数调优。如果你有一个深度学习模型,你可以操作多个旋钮,如层的数量和大小等。如何得到最优配置不是一件小事,一些直观的算法(如网格搜索)表现不佳。你需要做很多实验来完成它,它更像是一门艺术而不是科学。

在我写这些的时候(2019年初),谷歌和亚马逊开始提供自动模型调优服务(Cloud AutoML,SageMaker),微软也计划这样做。我预测手动调优将步渡渡鸟的后尘(渡渡鸟是除恐龙外最著名的已灭绝动物之一),而且这也是一种很好的解脱。

我希望你们能看到这个模式。困难变得容易,即使理解得很少,你也可以得到更多。过去伟大的工程技术开始显得稍逊一筹,当然我们也不能指望我们现在的成就在未来会进展更好。这是一件好事,也是伟大进程的标志。我们把这一进程归功于谷歌这样的公司,它们在这些工具上投入了大量资金,并免费提供使用。他们这样做有两个原因。

你商业化之后办公室

首先,这是对他们实际产品(即云基础设施)的一种商品化的尝试。在经济学中,如果你倾向于同时购买两种商品,那么这两种商品是互补的。一些例子如:汽车和汽油,牛奶和谷物,培根和鸡蛋。如果一种互补品的价格下降,另一种互补品的需求就会上升。对云计算来说互补品就是在其上运行的软件,而人工智能也有一个很好的特性,那就是它需要大量的计算资源。因此,尽可能降低开发成本是很有意义的。

谷歌对人工智能如此热衷的第二个原因是,它们相对于亚马逊和微软拥有明显的比较优势。他们起步较早,正是他们普及了深度学习的概念,所以他们成功地抢走了很多人才。他们在开发AI产品方面有更多的经验,这使他们在开发必要的工具和服务方面具有优势。

尽管这一进展令人兴奋,但对于那些在人工智能技能上投入巨资的公司和个人来说,这都是一个坏消息。如今,它们为你提供了坚实的竞争优势,因为培训一名有能力的ML工程师需要花大量时间阅读论文,并从扎实的数学基础开始。然而,随着工具越来越好,情况将不再是这样。它将更多的是关于阅读教程而不是科学论文。如果你没有很快意识到自己的优势,一群图书馆的实习生可能会吃掉你的午餐。特别是,如果实习生有更好的数据,这就引出了我的下一个观点……

数据比花哨的人工智能架构更重要

假设你有两个AI创业公司的创始人,Alice和Bob。它们的公司筹集的资金大致相同,在同一个市场上激烈竞争。Alice投资最好的工程师,以及在人工智能研究方面有良好记录的博士。Bob雇佣了平庸但有能力的工程师,并将她(“Bob”是Roberta的缩写)的资金投资在获取更好的数据上。你会把钱押在哪家公司?

我的钱将完全押在鲍勃身上。为什么?从本质上来说,机器学习是通过从数据集中提取信息并将其传递给模型权重来实现的。一个更好的模型在这个过程中(在时间和/或整体质量方面)更加有效,但是假设一些充分性基线(也就是说,模型实际上正在学习一些东西),更好的数据将胜过更好的架构

为了说明这一点,让我们进行一个快速而粗略的测试。我创建了两个简单的卷积网络,一个“更好”,一个“更差”。较好的模型的最后一层致密层有128个神经元,而较差的一层只有64个。我对它们进行了不断增大的MNIST数据集子集的训练,并将模型在测试集上的准确性与它们所训练的样本数量进行了绘图。

蓝色代表“更好”模型,绿色代表“更差”模型

训练数据集大小的积极作用是明显的(至少在模型开始拟合和精度达到稳定水平之前是如此)。我的“更好”的模型,蓝线,明显优于“更差”的模型,绿线。但是我想指出的是,在4万个样本上训练的“更差”模型的准确率要比在3万个样本上训练的“更好”模型的准确率高!

在我的假设例子中,我们正在处理一个相对简单的问题,并且我们有一个全面的数据集。在现实中,我们通常没有这么多的数据。在许多情况下,你永远无法逃脱图表中增加数据集具有如此显著效果的部分。

更重要的是,Alice的工程师实际上不仅仅是在和Bob的人竞争。由于人工智能社区的开放文化及其对知识共享的重视,他们还在与谷歌、Facebook、微软和全球数千所大学的研究人员竞争。如果你的目标是解决一个问题(而不是对科学做出最初的贡献),那么采用目前文献中描述的性能最好的体系结构并根据你自己的数据对其进行再训练是经过实战检验的最佳策略。如果现在没有什么好东西可用,那通常需要等待一两个季度,直到有人提出解决方案。特别是你可以举办一个Kaggle竞赛来激励研究人员研究你的特定问题。

好的工程设计总是很重要的,但是如果你在做人工智能,数据是创造竞争优势的关键。然而,最重要的问题是,你是否能够保持你的优势。

在人工智能领域,保持竞争优势是困难的

由于她的优越数据集Bob成功地与Alice竞争,并且做得很好。她推出了自己的产品,并稳步扩大市场份额。她甚至可以开始雇佣更好的工程师,因为在大街上有传言说,去她的公司再合适不过。

Chuck有一些工作要做,但是他比Bob有钱多了。这在构建数据集时很有用。通过砸钱来加快一个工程项目的进度是很难的。事实上,分配太多的新人会阻碍开发。然而,创建数据集是另一类问题。通常,这需要大量的体力劳动——你可以通过雇佣更多的人来轻松地规模化。或者可能是某人拥有数据——那么你所要做的就是支付许可证费用。无论如何,钱会让它进行的更快。

为什么Chuck能比Bob筹到更多的钱?

当创始人发起一轮融资时,他们试图平衡两个可能存在冲突的目标。他们需要筹集足够的资金来获胜。但它们不能筹集太多资金,因为这会导致股份过度稀释。接受外部投资者意味着出售公司的一部分。创始团队必须在初创企业中持有足够高的股份比例,以免失去动力(运营一家初创企业是一项艰难的工作!)

另一方面,投资者希望投资那些具有很大上升潜力的创意,但他们必须控制风险。随着可感知风险的增加,他们会要求公司为他们支付的每一美元支付更大的份额。

当Bob筹集资金的时候,她坚信AI将有助于她的产品。但是不管她作为创始人的能力如何,也不管她的团队有多优秀,她一直都没有解决的问题是,为什么这个问题只有她能解决。Chuck的情况很不一样。他知道这个问题是可以解决的:Bob的产品就是活生生的证明!

Bob对这一挑战的一种潜在反应是发起另一轮融资。她应该处于有利的地位,因为(目前)她仍处于领先地位。然而,情况可能更为复杂。如果Chuck可以通过一种战略关系来确保数据访问的安全呢?例如,假设我们正在谈论一家癌症诊断初创公司。Chuck可以利用他在一家重要医疗机构的内部地位,与该机构达成私下交易。Bob很可能不可能做到这一点。

你的产品要具有防御性,最好有一个很深的护城河

那么,如何为你的AI产品建立可维护的竞争优势呢?不久前,我有幸与微软研究院的Antonio Criminisi交谈。他的想法是,这个项目的秘密武器不应该只是人工智能。例如,他的InnerEye项目使用人工智能和经典(不是基于ML的)计算机视觉来分析放射图像。从某种程度上说,这可能与你当初为什么要创办人工智能公司不一致。将数据扔向模型并观察其工作的能力非常有吸引力。然而,传统的软件组件(这类组件要求程序员考虑算法,并利用一些难以获得的其他领域知识)复制起来要困难得多。

最好像杠杆一样使用人工智能

对商业中的某些东西进行分类的一种方法是,它是直接增加价值,还是为其他一些价值来源提供杠杆。让我们以一家电子商务公司为例。如果你创造了一条新的产品线,你就直接增加了价值。以前什么都没有,现在有了小配件,客户可以为它们付费。另一方面,建立新的分销渠道是一种手段。通过在亚马逊上销售你的小配件,你可以使你的销售量翻倍。削减成本也是一种杠杆。如果你和中国的配件供应商洽谈一个更好的交易,你可以把毛利润提高一倍。

杠杆比直接施力的效果好很多。然而,杠杆只有在与直接价值源耦合时才有效。如果你把一个极小的数字增加一倍或三倍,它会变的更小。如果你没有小配件可卖,获得一个新的分销渠道是浪费时间。

这种背景下,我们应该如何看待AI ?有很多公司试图把人工智能作为他们的直接产品(图像识别API和类似的API)。如果你是一个人工智能专家,这可能非常诱人。然而,这是一个非常糟糕的主意。首先,你要与像谷歌和亚马逊这样的公司竞争。其次,制造真正有用的通用AI产品非常困难。例如,我一直想使用谷歌的Vision API。不幸的是,我们从来没有遇到过这样的客户,他们的需求与我们的产品完全匹配。它总是太多,或者不够,相比于在一个圆孔中适配一个方钉的工作量,定制开发更可取。

一个更好的选择是把人工智能当作一个杠杆。你可以采用现有的、可行的商业模式,然后用人工智能对其进行升级。例如,如果你有一个依赖于人类认知劳动的过程,自动化它将为你的毛利润创造奇迹。我能想到的例子有心电图分析,工业检查,卫星图像分析。同样令人兴奋的是,由于人工智能停留在后台,你有一些非人工智能的选择来构建和维护你的竞争优势。

结论

人工智能是一种真正的变革性技术。然而,将你的初创公司建立在它的基础上是一件棘手的事情。你不应该仅仅依靠你的人工智能技能,因为它们正随着更大的市场趋势而贬值。建立人工智能模型可能非常有趣,但真正重要的是拥有比竞争对手更好的数据。保持竞争优势是很困难的,尤其是当你遇到比你富有的竞争对手时:如果你的AI想法成功,这是很有可能发生的。你应该致力于创建一个可伸缩的数据收集过程,这是很难被你的竞争对手复制的。人工智能非常适合代替那些依赖经过基本训练的人们的认知工作的行业,因为它允许将这项工作自动化。


初创公司   人工智能    策略   云计算    机器学习



英文原文:https://medium.com/@szopa/your-ai-skills-are-worth-less-than-you-think-e4b5640adb4f
译者:野生大熊猫


登录查看更多
0

相关内容

Google发布的第二代深度学习系统TensorFlow
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
33+阅读 · 2020年3月6日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
【机器视觉】计算机视觉前沿技术探索
产业智能官
11+阅读 · 2018年12月25日
无人再谈CV:计算机视觉公司的困境
镁客网
7+阅读 · 2018年7月7日
【教程】如何从零开始构建深度学习项目?
七月在线实验室
7+阅读 · 2018年4月23日
号称“开发者神器”的GitHub,到底该怎么用?
算法与数据结构
4+阅读 · 2018年3月29日
2018年4个需要关注的人工智能趋势
大数据技术
7+阅读 · 2018年1月30日
TensorFlow图像分类教程
机器学习研究会
33+阅读 · 2017年12月29日
吴恩达最新问答:深度学习泡沫何时会破?
德先生
19+阅读 · 2017年11月22日
李开复:人工智能将加大贫富不均 最大受益者是BAT
人工智能机器人联盟
4+阅读 · 2017年10月28日
Learning Discriminative Model Prediction for Tracking
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Polarity Loss for Zero-shot Object Detection
Arxiv
3+阅读 · 2018年11月22日
Arxiv
4+阅读 · 2018年9月6日
VIP会员
相关VIP内容
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
33+阅读 · 2020年3月6日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
相关资讯
【机器视觉】计算机视觉前沿技术探索
产业智能官
11+阅读 · 2018年12月25日
无人再谈CV:计算机视觉公司的困境
镁客网
7+阅读 · 2018年7月7日
【教程】如何从零开始构建深度学习项目?
七月在线实验室
7+阅读 · 2018年4月23日
号称“开发者神器”的GitHub,到底该怎么用?
算法与数据结构
4+阅读 · 2018年3月29日
2018年4个需要关注的人工智能趋势
大数据技术
7+阅读 · 2018年1月30日
TensorFlow图像分类教程
机器学习研究会
33+阅读 · 2017年12月29日
吴恩达最新问答:深度学习泡沫何时会破?
德先生
19+阅读 · 2017年11月22日
李开复:人工智能将加大贫富不均 最大受益者是BAT
人工智能机器人联盟
4+阅读 · 2017年10月28日
Top
微信扫码咨询专知VIP会员