万万没想到,枯燥的“机器学习”还可以这样学!

2018 年 6 月 13 日 阿里技术
万万没想到,枯燥的“机器学习”还可以这样学!

阿里妹导读:机器学习是人工智能的核心之一,涉及领域包括概率论、统计学等复杂学科。对于非专业人士来说,想要理解它着实不容易。


最近,蚂蚁AI平台部的栢柠,却在遛弯中找到解释“机器学习”的关键所在,以深入浅出的方式把“机器学习”解释得趣味盎然。下面一起来学下吧!


本文作者:蚂蚁金服AI平台部资深产品专家 栢柠(朱百宁)


5月末的一天中午,蚂蚁AI平台部的几个PD同学吃完老娘舅,在Z空间楼下遛弯。

 

期间,某同学提到一则“小孩子因为鸡毛蒜皮的小事,想不开而做出傻事”的新闻。


当大家在纷纷感叹的时候,一位产品专家同学形象地说了一句——这个孩子的“模型过拟合、泛化能力太差”。


这个比喻确实一针见血、入木三分啊!众人均表示,以此悟性,该同学“晋升研究员,入主组织部”就指日可待了!


 

的确如此,娇生惯养(过拟合:overfitting)形成的脆弱心智(模型),在面临真实世界当中的种种不如意时,往往不能正确地处理(预测不准、泛化能力差),从而非常容易酿成悲剧。


在机器学习当中,在训练模型时,如果样本太单一或者特征选择不当,就会出现过拟合。即把训练样本当中的特殊情况,当成普遍情况。这样,在面对新的样本时,就无法正确处理。


 

我们常说的应试教育和素质教育,也有泛化能力的巨大差异。


应试教育整天让学生做卷子、刷题库,训练出来模型过拟合、泛化能力差,就会出现“高分低能”的情况。而素质教育则注重能力锻炼、比较多元化,训练出来的模型泛化能力强,学生们将来在生活和工作方面都不会有太大的问题。



其实,如果你把人的成长与机器学习进行仔细比对,你就会发现,两者还有更多异曲同工之妙。

 

一个婴儿呱呱坠地,他天生就会具备一些能力(自带算法库),比如心跳、呼吸、哭、笑、恐惧等等。


这些能力,都是神奇的进化和伟大的基因带给我们的。否则,让我们重新掌握一遍这些技能那就太费劲了。



当然,为了正常的生活,仅仅有这些自带的初级算法和模型是还不够,你还要不断地掌握一些新的技能(自研算法)


比如,吃饭、走路、说话等等。


要掌握这些技能,需要父母日复一日,年复一年,不辞辛苦地反复教我们,训练我们咿呀学语、蹒跚学步。


这就像在机器学习中,需要足够多的样本(成千上万),耗费很多计算资源,经过数分钟甚至数小时、数天的持续训练,才能获得一个模型。

 

其实,在人的大脑当中,不光有常年累月不断训练而掌握的技能(模型),还会有一些强规则


这些规则,有些是父母教给我们的,有的是社会道德规范、法律法规形成的 。


比如,父母会对小孩子说:“不要随便吃陌生人给的食物”、“过马路时要左右看”。


在生活当中,要尊老爱幼、礼尚往来,要遵纪守法、践行社会主义核心价值观等等。


对于这些规则,我们记住,以后照做就行了。



由此可见,我们的大脑就像一个决策中心或者决策中枢,其中包含了无数规则和模型

。每次决策,就是组合地使用这些规则和模型。


在实际的机器学习应用场景中,在各个业务线当中,也有各种各样类似的“决策中心”,比如大安全的UCT、微贷的AGDS以及DecisionX这样的“通用决策中心”。


这个决策中心,就包含了成百上千复杂的规则(或者称为“策略”)以及训练得到的模型。对于某一个,用策略and/or模型的组合来进行判断和决策。


而且,往往是先判断策略,如果不满足某个策略,那么就直接给出决策。

 

随着年龄的增长,除了吃喝拉撒这些基本技能,我们的决策中心还需要掌握更多的技能,比如语文、数学、音乐、舞蹈、体育等等。


在这方面,经常会看到某些孩子“天赋异禀”,即系统自带超牛的算法——他的爸妈给他遗传了更好的算法。


不过,我们普通人也不要气馁,我们可以付出更多努力(大样本),不断刻意、刻苦地训练(模型不断retrain和演进),也能取得好的成绩。


人生是场马拉松,模型训练也是如此。


 

相比之下,在这场马拉松当中,在人生的不同年龄阶段,我们所使用的学习方法也不尽相同。


在小时候,我们大多数采用的是监督的机器学习。


比如,父母会拿着各种各样的水果教我们:“这是苹果,这是桔子”。


动画片和故事书经常告诉我们:哪些是好人,哪些是坏人。


于是,我们最常用的就是二分类算法:大/小、长/短、是/否、好/坏。


而长大以后,我们遇到更多的是无监督或者半监督的学习,很多事物并不会带着明确的是非对错的标签。


因此,我们会用一些聚类算法。跟遇到的人经过一段时间熟悉后,才会把他们分为“讲义气”、“酒量大”、“会修电脑”、“爱吃老娘舅”等各个类别。



尽管学习的方法各异,但大道至简、万物相同。


我们知道,一个人在某个方面有所成就,就很容易在其他领域表现优异(迁移学习) 。


比如,爱因斯坦不仅是杰出的科学家,他还精通小提琴。一个C语言高手,很快就能变身Java大拿。

 

当然,细究起来,人脑与机器学习也有不少差异。


比如,给小孩玩几个玩具汽车、看几张汽车图片,他就会能认识许多造型各异、图片风格迥异的汽车。


相比之下,要让机器达到这样看似简单的能力,则需要需要数万、数百万的样本来训练。


几年来,有关AutoML的一个研究方向,就是解决如何用少量的样本完成模型的训练。


 

此外,我们发现,人类“下意识、一瞬间”能做的事情,对于人工智能来说却很难


比如,认识物体和人像(图像识别能力)、喜怒哀乐的情绪以及行走奔跑的能力。究其原因,还是归功于伟大的进化——我们的这些模型,是经历了亿万年的进化,经过了无数次地模型演进才获得的。


反过来说,人类花很长时间才能做完的事情,对电脑来说却易如反掌例如,在短时间内,对100万个数字求和,或者把圆周率的精确到小数点后100万位。


 

然而,要找到人脑和人工智能的能力差异背后的真实原因,人类还有很长一段路要走。


尽管现在科技日新月异,尽管人们已经发明出了“深度神经网络”来实现人工智能(深度学习),让机器认识猫、下围棋,但人类对自己大脑的运作机制仍然知之甚少。


可以说,人们用自己那神奇的、原理尚不清楚(不可解释) 的大脑,造出了种种机理尚不清楚(不可解释)的模型。


也就是说,尽管你用深度学习训练出了一个可以识别猫的模型,但这个模型没有可解释性。即,你无法说出这个你训练出的这个牛逼的模型,究竟是靠哪些特征、哪些原则来识别出猫的。


 

人的心智,就是由无数个如此讳莫如深的模型以及清晰明了的规则组成。


人的一生,就是不断迭代旧算法、retrain旧模型,研发新算法、训练新模型的过程。


所谓“读万卷书、行万里路、与万人谈”,这就是让我们掌握更多的算法,拥有更全面的样本,从而训练出更多样的模型。

 

不过,可惜的是,不像“长相、哭、笑”这类特征或技能,人类的大部分模型并不能通过基因来遗传给我们的孩子。


比如,一个“精通Java/Python,擅debug、调core”的高级技术专家(P8),与一个“深谙用户体验和人性本质”的资深产品经理(P6)合体之后,繁衍的后代并不能天生就会写码或画线框图。


也就是说,你穷尽一生训练出来的各色优雅的模型,有朝一日都会下线(模型下线)


 

但是,并不要因此感到悲伤,人生本来就是一个体验美好和精彩的过程。


人常说,活到老学到老,这样的人生才是完整的,才是值得期待的。

 

总而言之,蚂蚁金服AI平台部汇聚了机器学习、大数据智能等领域的来自五湖四海、国内国外的众多精英,部门的产品支持了蚂蚁金服多个核心产品和业务。

这个团队不光有才、有料,还有情、有义、有趣!

现在,我们亟需以下岗位的同学加盟:

大数据智能-高级产品专家:

https://job.alibaba.com/zhaopin/position_detail.htm?positionId=48713

AI/机器学习-高级产品专家:

https://job.alibaba.com/zhaopin/position_detail.htm?positionId=24972

金融智能平台-产品运营专家:

https://job.alibaba.com/zhaopin/position_detail.htm?positionId=49973

有意者,请速投简历(亦可直接发送至 dengtao.ldt@antfin.com)。

“AI+金融”,你不容错过!


本文来源:自传播实验室


你可能还喜欢

点击下方图片即可阅读



工程狮爸爸如何准备儿童节礼物?



程序员吃的是青春饭?本质上取决于......



为什么阿里工程师纷纷在内网晒代码?


关注「阿里技术」

把握前沿技术脉搏

登录查看更多
42

相关内容

过拟合,在AI领域多指机器学习得到模型太过复杂,导致在训练集上表现很好,然而在测试集上却不尽人意。过拟合(over-fitting)也称为过学习,它的直观表现是算法在训练集上表现好,但在测试集上表现不好,泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差,在训练时复杂的模型将抽样误差也进行了拟合导致的。
小贴士
相关资讯
掌握“机器学习”,这可能是比啃西瓜书更高效的方法
计算机视觉life
10+阅读 · 2019年10月23日
520 页机器学习笔记!图文并茂可能更适合你
大数据技术
17+阅读 · 2019年10月8日
清华大学两名博士生被开除:你不吃学习的苦,就要吃生活的苦
机器学习算法与Python学习
20+阅读 · 2019年9月16日
备战AI求职季 | 100道机器学习面试题(上)
七月在线实验室
8+阅读 · 2019年3月16日
机器学习:从入门到晋级
云栖社区
3+阅读 · 2018年11月21日
关于机器学习,你需要知道的三件事!
云栖社区
3+阅读 · 2018年3月3日
入坑机器学习,十个知识点你不得不知
人工智能头条
7+阅读 · 2017年9月15日
机器学习没有想象中的那么难
待字闺中
3+阅读 · 2017年9月14日
相关VIP内容
专知会员服务
168+阅读 · 2020年6月10日
专知会员服务
116+阅读 · 2020年3月22日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
255+阅读 · 2020年2月15日
谷歌机器学习速成课程中文版pdf
专知会员服务
98+阅读 · 2019年12月4日
【机器学习课程】Google机器学习速成课程
专知会员服务
84+阅读 · 2019年12月2日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
102+阅读 · 2019年10月27日
相关论文
Jiacheng Yang,Mingxuan Wang,Hao Zhou,Chengqi Zhao,Yong Yu,Weinan Zhang,Lei Li
5+阅读 · 2020年3月26日
Augmentation for small object detection
Mate Kisantal,Zbigniew Wojna,Jakub Murawski,Jacek Naruniec,Kyunghyun Cho
8+阅读 · 2019年2月19日
Tianyi Liu,Shiyang Li,Jianping Shi,Enlu Zhou,Tuo Zhao
3+阅读 · 2018年10月1日
Geometry-Based Multiple Camera Head Detection in Dense Crowds
Nicola Pellicanò,Emanuel Aldea,Sylvie Le Hégarat-Mascle
3+阅读 · 2018年8月2日
The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach
Iulian Vlad Serban,Chinnadhurai Sankar,Michael Pieper,Joelle Pineau,Yoshua Bengio
9+阅读 · 2018年7月12日
Fine-tuning CNN Image Retrieval with No Human Annotation
Filip Radenović,Giorgos Tolias,Ondřej Chum
4+阅读 · 2018年7月10日
Relational Deep Reinforcement Learning
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
5+阅读 · 2018年6月28日
Luke Metz,Niru Maheswaranathan,Brian Cheung,Jascha Sohl-Dickstein
6+阅读 · 2018年5月23日
Daniel Oñoro-Rubio,Mathias Niepert,Alberto García-Durán,Roberto González,Roberto J. López-Sastre
9+阅读 · 2018年3月31日
Top