创业半年估值四亿!离开百度后他打造了中国版AutoML

2018 年 6 月 13 日 AI前线
策划编辑 | Natalie
作者 | Vincent
编辑 | Natalie
AI 前线导读: 夏粉,智铀科技 CEO 兼创始人,中科院自动化所博士研究生,师从中国机器学习领域泰斗王珏;阿里巴巴合伙人刘振飞亲自登门邀请加盟、“阿里十八罗汉”之一吴泳铭曾给过一张自填薪资的 offer;与人工智能顶级科学家张潼、吴恩达为百度同部门同事...

有如此履历,足见夏粉实力不俗,2017 年 6 月,夏粉走上创业之路,智铀科技就此诞生了。公司的名字也颇有深意,按照夏粉的说法:“智”为人工智能,“铀”是一种能产生原子能的放射性元素,能够核裂变散发出巨大的能量。仅仅半年的时间,智铀科技就“裂变”出了巨大的能量,迅速完成两轮融资,估值达 4 亿人民币。

1 年后的今天,智铀科技正式对外宣布推出自研 AutoML 平台:小智。

更多优质内容请关注微信公众号“AI 前线”,(ID:ai-front)

6 月 13 日,智铀科技召开自研 AutoML 平台发布会,名为“智普万物,铀变时代”,AI 前线记者受邀前往。本次发布会是智铀科技自 2017 年 6 月成立以来,面向外界召开的首次发布会,此次发布会上,智铀科技推出了一款国产 AutoML 平台,名为:“小智”。AI 前线在现场为各位读者发来最新报道。

在发布会上,智铀科技的市场合伙人李敏先生分享了机器学习发展的现状,他说,机器学习已经成为互联网发展的基石,据统计,机器学习在企业的部署,2017 到 2018 年已经翻了一番,2020 年还将再翻一番。

但是,机器学习严重依赖科学家资源,而科学家资源又十分昂贵,所以,机器学习在企业的部署陷入瓶颈,这也是智铀科技 AutoML 将要解决的痛点。

随后夏粉在演讲中也提到:在机器学习建模过程中,需要数据预处理、特征工程、模型调参、模型评估等各个环节不断循环反复才能完成一个复杂的建模过程,整个流程不仅会耗费大量的时间,对于人力也是极大的浪费。夏粉直言:“这些中间环节不是 AI 科学家的重点工作,但却非常繁琐重复耗时,但目前只能是AI科学家来做,AutoML 就是要解放科学家。”

智铀科技产品合伙人乔树航提到:让了解业务的工作人员学会使用 AI,而不是让 AI 科学家去学习不同行业的业务,这一点对企业部署机器学习来说尤为重要。

所以,企业需要一款简单、易用、好用的产品,可以帮助企业完成数据处理,进行机器学习建模,“小智”由此诞生。它是智铀科技大规模自动化机器学习产品,拥有当前最先进的机器学习能力,承载了最新的第四代机器学习技术,实现在线智能学习系统,从而降低机器学习门槛,各行业可以快速部署人工智能系统。

更多信息可以访问智铀科技官方网站:

http://www.wisutech.com/

AI 前线对智铀科技创始人夏粉先生进行了独家专访,对 AutoML 技术和“小智”进行了更深入的探讨,以下是采访内容:

Q:这一两年全自动机器学习平台市场可以说是非常热闹。在您看来,为什么开发者和公司对于 AutoML 平台的需求这么强烈?

夏粉:现在市场上存在这么几个痛点:

  • 建模过程繁琐

算法建模及调参是一个非常繁琐的过程,需要数据预处理、特征工程、模型调参、模型评估等各个环节不断循环反复才能完成一个复杂的建模过程;一个 3—6 人数据建模团队通常需要花费半年的时间才能完成复杂的建模。

  • AI 人才匮乏

人工智能的人才缺口超过 500 万,供求比例仅为 1:10。(来源:《人民日报》报道)

  • 人力成本大

根据 Indeed 报告,机器学习工程师、数据科学家在前十的“最佳”工作排名中占据前两位,年薪均高达百万 。

  • 算法设计周期长

一个互联网公司典型的人工智能项目开发需要 30 人. 月,传统行业需要花费更多的人力和时间。

  • 系统实施维护困难

生产环境不断发生变化,模型准确度下降,数据管理困难、算法模型更新周期长。

而 AutoML 平台可以通过自动化建模,可以帮助企业解决这些问题,节省人力成本的同时实现快速准确的预测效果。对数据科学家而言,可以把建模调参过程中的重复劳动去除掉,从而把精力放在前瞻性研究工作,比如问题的定义方面。对于业务人员而言,是化不可能为可能,即使没有数据科学家,企业普通业务人员也能轻松拥有专业级机器学习能力。

Q:能否谈谈贵公司开发“小智”的初衷?

夏粉: 我曾经目睹了机器学习工程师辛苦调参的过程,太累了,一定要解放出来。

我在百度负责网盟的点击预估模型,主要目标是提升广告点击率,那么提升的主要手段就是不断的试,因为问题定义已经很清楚了,主要就是两块工作:

一是数据采集,需要采集流量数据、广告数据,这是一方面工作,比较耗时;还有就是加工,当时做的比较多的就是特征选择和特征组合,这两个事情占用了加工主要时间。

一开始这个事情好做,大概过一 个月就能挖到一个比较好的特征,每挖到一个特征大家都非常高兴,模型上线了,业绩提升了,对公司有了贡献,这项工作本质上是重复的脑力劳动,这个事情要会使用工具,只要会使用工具了谁都能干,效果好不好特别依赖于人的经验。

当时我带了 30 个人做这个事情,投入了巨大的人力和资源,如果机器来做就简化了,当时我就找了一个三个人的小团队,专门研究算法,研究怎么把这个东西自动化。3 到 4 年之后,我们做了一套系统出来,当时那个系统出来,我们做挖特征的时候把网盟最后一批特征全挖光了,后面加特征就再也没效果了,我们一下子挖了 30 几个特征,当时还把人工试了没用的特征用机器再挖,结果把效果挖出来了,又有提升。

之后我想做更加通用的平台,让公司更多的部门来用,后来去了百度研究院,带团队开发了大规模机器学习平台 Pulsar,结果试了我们成功了,Pulsar 在公司所有机器学习平台中排第一的,在效率和效果上面,人工效率没我们快,效果没我们好。

而且我发现一个事情,一般 BAT 的技术都是领先业界 2-3 年的,当百度可以用人工智能提升 CTR 变现的时候,外面的企业 3 年后也开始逐渐用起来了,而我们现在想把这个技术推向更多的企业,更快的应用人工智能,创造更大的社会价值。

Q:一个完整的机器学习流程需要包括数据处理、参数调优、特征学习和模型算法训练这几个步骤,为了实现这几个步骤的自动化,你们分别做了哪些工作?能否具体介绍一下“小智”平台实现全自动机器学习流程所涉及的核心技术?技术难点在哪里?

夏粉:我们所做的工作与核心技术有这样几个:

1)独创参数搜索算法:解决人工调参 (近百超参数的调整)费时耗力的问题。

2)独创特征工程算法:组合特征挖掘效率提升上千倍,丰富的高阶特征提取方式;支持从无标签数据中提取有效特征。

3)独创重要性采样技术:选择 1% 样本就能达到 90% 随机样本效果。

4)模型算法优化:浅层模型算法,LR 收敛速度提升 60%;FGBDT 算法比 XGBoost 既快又好。

5)大规模神经网络:支持千亿样本、千亿特征数据量,模型从浅层到深层灵活支持,可建立万亿链接神经网络结构 DNN。

技术难点:

自动化机器学习最难的是优化问题。

给你个目标函数,我需要找到一个点使目标函数最小,这就有很多研究方法,对目标函数有很多解法,可以求解。自动化机器学习是目标函数不可导,反馈机制不明确,计算复杂度高,所以要全部试一遍,成本非常高。把不可导变成可导的优化问题出来,就要求近似。

报道说,人工智能打败国际象棋大师是在上世纪 80 年代,通过暴力搜索,每一步都评估,选取分数最好的一步,但是到围棋就不行,复杂度高搜索不出来,穷搜根本搜不出来,所以要做近似问题,把不可解问题近似成可解的问题,找目标函数,使目标函数以很大的概率覆盖每个解,同时求解的复杂度降低,我们在这一方面创新了很多算法。(人和机器都没有办法找最优解,机器范围大、效率高,所以效果比人好)以前象棋每步搜索 2 亿次,现在只需要做 3000 万次,因为做了优化。

自动化机器学习的突破最大的是算法设计突破,你要找到 A 问题近似 B 问题,比如谷歌 AutoML 是用强化学习做的,他也是穷值,穷值下面也是有一个产生概率在里面,我有几个候选,这些都有可能是最优解,我把每个最优解都放了一些概率分布在这儿,然后根据概率分布我随机抽一点,抽一点上去试,试的话反馈过来会改变这个概率的分布形式,最终概率分布形式变了,最终最有可能是最优解的概率覆盖到更大的概率。

Q:与市场上已有的 AutoML 产品相比,“小智”有何不同?它的优势或亮点是什么?哪一点最能吸引用户选择该产品?

夏粉:“小智”极大地降低了使用门槛,做到了真正的 AutoML,用 AI 训练 AI,不需要人力干预

Q:“小智”的易用性如何?

夏粉:直观的 web 界面允许任何人和小智进行交互,不需要 AI 背景,用户可以一键完成建模。

内置的可视化效果,如 ROC 曲线图和准确 & 召回曲线,使用户对自己的业务有更深刻的理解。

Q:如何评估一个 AutoML 平台的优劣?您认为一个优秀的 AutoML 平台需要满足哪些条件或者需要做到哪几点?

夏粉

  1. 自动构建高精度模型

  2. 简单易用、全程可视化

  3. 快速部署

  4. 准确性高、速度快

  5. 支持大数据量建模

Q:目前“小智”主要应用场景有哪些?能否举个实际案例?未来主要会面向 ToB 还是 ToC 市场?

夏粉:目前智铀已经与金融、医疗、物联网等多个行业的公司进行合作为其提供服务,目前产品的功能应用涵盖点击率预估、反欺诈侦测、市场精准营销以及个性化推荐等,满足不同场景的不同需求。

举一个例子:基因科学是数据规模大而且最复杂的领域,然而 AI 人才稀缺的问题长期困扰着这一行业,庞大的需求在短时间内无法得到满足,而利用自动化机器学习可以在数据预处理、特征抽取、建模、优化等方面实现全面自动化,即使是普通的业务工程师也可以进行操作,这极大的节约了企业的人力成本。

艾吉泰康生物科技(北京)有限公司是我们的客户之一,他们具有多年设计探针的经验积累,基于智铀科技提供的自动化机器学习产品,能够通过收集探针相关特征数据,完成对大量特征的系统分析,建立模型,并通过自动化调参优化模型,最终可以通过调整实验设计方案来优化探针,提高探针设计的总体质量。

“小智”在一周内部署成功,使探针设计效果预估准确率高达 90%,提高了基因捕获效率和均一性,改善了至少 20% 探针的捕获效果,一次性交付率超过 90%,从而在整体上帮助客户极大的节约了实验成本和时间成本。

Q:国内外已有多家公司推出 AutoML 产品,您认为 AutoML 未来的市场潜力如何?智铀科技对于自身的市场定位是如何考虑的?

夏粉:中国的人工红利在逐渐降低,生产效率需要提升,AutoML 可以大大提升机器学习应用各行各业的影响力。AI 被称为第四次工业革命,机器学习目前是实现人工智能的主要手段,我们的产品能使机器学习的使用门槛进一步降低,因此产品的社会价值能让各行各业效率得到提升。

我们对“小智”的市场定位是:

  • 以产品的形式提供给行业;

  • 针对大客户做解决方案定制;

  • 支持公有云 SAAS 模式和私有化部署。



今日 AI 前线福利:吴恩达新书《机器学习训练秘籍》已更新至第 43 章,公众号后台回复“吴恩达”即可下载所有章节合集!

今日荐文

点击下方图片即可阅读

CV行业不差钱!依图科技获2亿美金C+轮融资


课程推荐

【限时优惠】

《机器学习 40 讲》上新!为你讲解机器学习必备核心理论,深入剖析 30 个最流行的机器学习模型,更有基于 python 语言的实例练习,帮你打通机器学习的任督二脉。

【订阅福利】

福利一:限时优惠价¥45,原价¥68,6 月 16 日恢复原价

福利二:每邀请一位好友购买,你可获得 18 元现金返现,多邀多得,上不封顶,立即提现(提现流程:极客时间服务号 - 我的 - 现金奖励提现)

「阅读原文」,订阅专栏


AI前线
紧跟前沿的AI技术社群

如果你希望看到更多类似优质报道,记得点个赞再走!

登录查看更多
0

相关内容

德勤:2020技术趋势报告,120页pdf
专知会员服务
191+阅读 · 2020年3月31日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
98+阅读 · 2019年12月29日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
304+阅读 · 2019年12月23日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
硅谷的“中台论”与中国的“中台论”
AI前线
4+阅读 · 2019年9月21日
AutoML:机器学习的下一波浪潮
AI前线
9+阅读 · 2019年4月27日
AutoML 坏掉了
云头条
4+阅读 · 2019年2月20日
告别调参,AutoML新书发布
专知
14+阅读 · 2018年10月16日
为什么AI公司都在一边融资,一边投资?
腾讯创业
6+阅读 · 2018年9月25日
无人再谈CV:计算机视觉公司的困境
镁客网
7+阅读 · 2018年7月7日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
The Measure of Intelligence
Arxiv
7+阅读 · 2019年11月5日
AutoML: A Survey of the State-of-the-Art
Arxiv
72+阅读 · 2019年8月14日
Arxiv
5+阅读 · 2018年9月11日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关资讯
硅谷的“中台论”与中国的“中台论”
AI前线
4+阅读 · 2019年9月21日
AutoML:机器学习的下一波浪潮
AI前线
9+阅读 · 2019年4月27日
AutoML 坏掉了
云头条
4+阅读 · 2019年2月20日
告别调参,AutoML新书发布
专知
14+阅读 · 2018年10月16日
为什么AI公司都在一边融资,一边投资?
腾讯创业
6+阅读 · 2018年9月25日
无人再谈CV:计算机视觉公司的困境
镁客网
7+阅读 · 2018年7月7日
智能语音成“AI四大项目” 千亿市场待开发
IT时报
3+阅读 · 2017年11月26日
相关论文
The Measure of Intelligence
Arxiv
7+阅读 · 2019年11月5日
AutoML: A Survey of the State-of-the-Art
Arxiv
72+阅读 · 2019年8月14日
Arxiv
5+阅读 · 2018年9月11日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
6+阅读 · 2018年4月24日
Top
微信扫码咨询专知VIP会员