业界 | 想要快速的搭建高性能机器学习系统,企业应该怎么干?

2017 年 5 月 11 日 AI科技评论

AI科技评论按:本文为「范式大学系列课程」。Web服务器部署在云上已经算是常见的事情了,那么机器学习系统如何呢?

亚马逊AWS目前的运维水平成为行业标准,但凡有公司要自己搭建 OpenStack,先要回答一个问题:OpenStack 比亚马逊云的优势是什么? 

对于机器学习来说,公司要自己搭建机器学习系统,也可以先问一个问题:需要多长时间和多少钱,才能达到行业领先的性能?

要知道,时间成本 + 丧失的竞争优势是无价的。 

我们来算算这笔账。 

1、时间

自建机器学习系统,大概有这么几步: 

  • 步骤 1:招聘机器学习团队的 Leader,2 个月

  • 步骤 2:搭建机器学习团队,2 个月 

  • 步骤 3:前期业务调研,2 个月 

  • 步骤 4:前期技术调研,2 个月 

  • 步骤 5:数据采集相关开发和数据积累,0.5 个月 

  • 步骤 6:数据分析处理,1 个月 

  • 步骤 7:模型调研,0.5 个月 

  • 步骤 8:线上系统开发,0.5 个月

  • 步骤 9:a/b测试和模型优化,0.5 个月

合计:11 个月 

这是相对较快的时间表,如果在哪个环节踩到坑,拖延的时间就没法计算了。 

如果要减少时间,关键是什么? 

专业化分工 + 专注核心环节。 

实际上,真正需要自己做的是数据采集、模型调研和模型优化,在专业化工具的帮助下,这些环节可以缩短到 1 个月。而其他 10 个月时间的工作,已经有专业化工具可以替代,沟通和实施时间可以缩短到 0.5 个月。 

这样就从原来的 11 个月,变成了 1.5 个月。 

2、钱

机器学习系统的投入,一般是这样的:

1000 万行/天的数据规模,机器学习系统一年的支出是 944 万。

如果要减少投入,关键是什么? 

专业化分工 + 专注核心环节。

通过使用机器学习平台,上面的投入会变成这样。

10 台线上机器和 20 台线下机器 ,企业在购买时是按照峰值数据量配备的,但机器实际运转的时间,往往只有 1/8,即每天运行 3 小时。剩下的 7/8 是浪费的。另外,开源机器学习框架对资源利用效率低,又是一大块资源浪费。

所以原本需要 10 台线上机器和 20 台线下机器,通过机器学习平台只需要 2 台线上机器和 4 台线下机器,节约了 240 万。

在人员投入上,30 台的机器需要配备 1 个带头人、3 个研发、1 个测试、1 个运维、1 个机器学习专家和 1 个业务专家,但如果采用机器学习平台,在专业化工具的帮助下,企业只需要 0.5 个机器学习专家和 0.5 个业务专家。

通过使用机器学习平台,企业的人力成本可以节约 588 万。

另外,机器学习平台的思路可以实现 1.5 个月上线,如果全部自己做则需要 11 个月甚至更久。如果错过了抢占市场的黄金期,损失就是巨大了。对于一个 1000 万行数据规模的公司来说,我们假定 9.5 个月延迟的损失是 5000 万。

所以我们得到了两个数字:

  • 如果不考虑时间的机会成本,采用机器学习平台的成本是自建系统成本的 12.3%。

  • 如果考虑时间的机会成本(5000 万),采用机器学习平台的成本是自建系统成本的 2%。

3、机器学习系统

机器学习系统的性能有 3 个要素: 

  • Max AUC:模型能达到最好的效果,好比山的高度

  • Actual AUC:实际上线模型的效果,好比爬到多高

  • Time:模型训练和预测所需要的时间,好比多久爬到这个高度

如果自己搭建机器学习系统,首先遇到的瓶颈一般是数据处理能力。

对于大部分机器学习团队来说,他们一般可以处理几十万规模的数据量,但如果数据规模超过 10 亿,那么即便是简单的逻辑回归模型,也会变成一个非常困难的问题。 

为了迁就不足的计算能力,一般会做的事情是减少特征数量和样本数量,这样才能在业务需要的时间内把模型训练出来。

但这样会造成很不好的结果,Max AUC 因为特征和样本数量减少而降低,Actual AUC 因为 Max AUC 和计算能力不足而降低,Time 因为计算能力不足而增加,最终整个系统的能力就会遇到瓶颈。 

如果要提升性能,关键是什么? 

专业化分工 + 专注核心环节。

大规模机器学习的计算框架是一件非常难的事情,因为它不仅需要处理亿万规模的数据,而且要符合机器学习的规则。能做大规模机器学习计算框架的人全国都屈指可数,基本集中在百度、阿里、腾讯以及少数的创业公司。 

所以对于公司来说,与其死啃大规模机器学习的计算框架,反而不如购买第三方的专业服务(这就好比你不会自己开发芯片)。而当计算能力充足的时候,公司就可以专注自己的核心环节,把特征的维度做上去,把数据的规模做上去,把数据和业务的结合做的更清晰。 

这样公司机器学习系统的性能,例如在业务需要的时间内获得的 AUC 才能提升上去。

4、总结

总的来说,公司要做机器学习,应该采取专业化分工 + 专注核心环节的方式,具体如下: 

专业化分工完成和辅助完成的:前期业务调研、前期技术调研、数据处理、模型调研、模型优化、模型上线、大规模机器学习计算框架、线下机器、线上机器、运维、大部分的工程投入。 

公司专注完成的环节:业务问题定义、数据采集、特征扩充、模型调研。 

这样,只需要 1.5 个月的时间,大约 10%(2%) 的成本,不仅获得了高性能的机器学习系统,而且能带来实际业务效果的提升,让机器学习能力真正转变为市场竞争力。

报名 |【2017 AI 最佳雇主】榜单

在人工智能爆发初期的时代背景下,雷锋网联合旗下人工智能频道AI科技评论,携手《环球科学》和 BOSS 直聘,重磅推出【2017 AI 最佳雇主】榜单


从“公司概况”、“创新能力”、“员工福利”三个维度切入,依据 20 多项评分标准,做到公平、公正、公开,全面评估和推动中国人工智能企业发展。


本次【2017 AI 最佳雇主】榜单活动主要经历三个重要时段:

2017.4.11-6.1 报名阶段

2017.6.1-7.1  评选阶段

2017.7.7    颁奖晚宴

最终榜单名单由雷锋网AI科技评论、《环球科学》、BOSS 直聘以及 AI 学术大咖组成的评审团共同选出,并于7月份举行的 CCF-GAIR 2017大会期间公布。报名期间欢迎大家踊跃自荐或推荐心目中的最佳 AI 企业公司。

报名方式

如果您有意参加我们的评选活动,可以点击【阅读原文】,进入企业报名通道。提交相关审核材料之后,我们的工作人员会第一时间与您取得联系。

【2017 AI 最佳雇主】榜单与您一起,领跑人工智能时代。

登录查看更多
0

相关内容

打怪升级!2020机器学习工程师技术路线图
专知会员服务
96+阅读 · 2020年6月3日
德勤:2020技术趋势报告,120页pdf
专知会员服务
187+阅读 · 2020年3月31日
【2020新书】如何认真写好的代码和软件,318页pdf
专知会员服务
63+阅读 · 2020年3月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
滴滴离线索引快速构建FastIndex架构实践
InfoQ
21+阅读 · 2020年3月19日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
【机器学习】如何通过机器学习预测维护设备?
产业智能官
16+阅读 · 2018年7月9日
PPTV创始人姚欣:人工智能到底怎么赚钱?
Python & 机器学习之项目实践 | 赠书
人工智能头条
13+阅读 · 2017年12月26日
Arxiv
14+阅读 · 2020年2月6日
Arxiv
4+阅读 · 2018年5月24日
Arxiv
8+阅读 · 2018年4月8日
Arxiv
9+阅读 · 2018年3月23日
VIP会员
相关VIP内容
相关资讯
滴滴离线索引快速构建FastIndex架构实践
InfoQ
21+阅读 · 2020年3月19日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
阿里云发布机器学习平台PAI v3.0
雷锋网
12+阅读 · 2019年3月22日
业务中台:如何在互联时代,快速响应用户需求?
互联网er的早读课
24+阅读 · 2018年12月26日
【机器学习】如何通过机器学习预测维护设备?
产业智能官
16+阅读 · 2018年7月9日
PPTV创始人姚欣:人工智能到底怎么赚钱?
Python & 机器学习之项目实践 | 赠书
人工智能头条
13+阅读 · 2017年12月26日
Top
微信扫码咨询专知VIP会员