今天的内容你可能看不懂,全是关于AI算法的终极讨论

2019 年 9 月 5 日 IT时报


人工智能下一站是哪里?

深度学习还能红多久?

全球最顶尖的科学家,

共论AI的未来。

他们的眼光,

越过当下,

落在那个AI与人类共存的未来。


数据、算法、算力,人工智能三要素。如果说数据和算力是必要条件,决定了AI的过去,那么算法作为“灵魂”,定义了AI的未来。


自人工智能概念被提出60多年来,几起几落,直到2012年深度学习技术被引入图像识别和语音识别数据集之后,才进入真正爆炸期。如今,基于神经网络的深度学习算法已经被广泛应用甚至商业化,同时亦有诸多问题未能解释,或者并无太好解决方案。



深度学习算法之后是什么?如何解决机器学习算法门槛高、算法人才不足的问题?如何打破数据孤岛并且保护数据隐私?如何找到破解深度学习“黑箱”的方法?如何保证机器学习系统的安全性?


来自全球的人工智能“最强大脑”们,为你解答。


NELL

自我学习永不停止

人工智能技术正以一日千里的速度向前发展。2016年,阿尔法狗战胜李世石时,人们还在讨论这种有监督的学习,到底能不能算真正智能,如今,无监督的人工智能NELL自动学习的数据已经超过2500万个。


机器学习之父、卡耐基梅隆大学计算机学院院长汤姆·米切尔和他的团队,2010年便开始做一个项目——NELL(永恒语言学习)。


(“机器学习之父”汤姆·米切尔)


NELL每天只做两件事:第一,24小时不停搜集网络上的公开内容,丰富结构化的事实和知识的知识库;第二,根据已有的文本和知识具备的知识抽取能力,优化自己的阅读能力,从而通过自我学习、自我标注,不断提升自我理解能力。汤姆认为,计算机是可以做到无监督学习的。


所谓有监督学习,是指机器对标注过的数据进行训练,并将结果与预测结果进行比较,后进行修正,而无监督学习,则更有点像人类,数据没有任何标注,也没有人告诉计算机,这个数据用来做什么,你的目的是什么,计算机只能自我学习。


回溯NELL的“出生”,可能更利于人们了解它的模式。2010年,NELL刚开始时,汤姆放入了少量标注过的样本,比如饮料、人、植物、城市等,并加入了一定的关系说明,比如说人创建了公司,饮料是食物产生的等等,然后在此基础上,利用少量标注样本集合训练学习模型,再以此模型去标注更多样本。


这些初始样本类似“种子”,NELL从它这里学到不同信息之间的关联,然后将已知的关系和本体进一步扩展,对没有事先标注的数据进行指导、分类,并纳入知识库。比如“枫叶的故乡是加拿大,多伦多是属于加拿大的一座城市”等等三元关系,都是在对海量、无意识的网络信息进行筛选,并不断和知识库里的知识进行叠加后,NELL自己得出的结论。


“事实上计算机是可以做到无监督学习的,它们每天都在提升水平,”汤姆·米切尔表示。“我们从传统的单一函数学习框架扩展到了多函数,今天,我们已经拥有 4000 余种分类方法,1.2亿三元的数据知识库,实现了前所未有的准确性。”


深度森林

“非神经”的深度学习

“现在我们每天都在谈论深度学习,这种方法取得了巨大成功。但它到底是什么?为什么深比浅好?”南京大学计算机系主任、人工智能学院院长、欧洲科学院外籍院士周志华一直在思考一个问题,如果能搞懂深度学习到底做了什么,是不是能实现那些目的的算法,就是好算法。


(周志华)


1

满足三要素不一定非要神经网络

“有一个错误的观点认为,现在AI成功是因为有强大的算力,只要把老算法放在新机器上就可以了,”周志华说道,“事实上,训练深层神经网络的算力在20 世纪 90 年代就已经具备。但我们使用反向传播方法(bp算法)训练神经网络需要做梯度优化,否则就会出现梯度消失问题。直到2006年,Geoffrey Hinton才通过逐层训练的方法解决了这个问题。”


周志华认为,目前主流的深度神经网络关键是,第一要有逐层的处理;第二要有特征的内部变化;第三,要有足够的模型复杂度。简单来说,就是当一张图片被计算机看到后,识别它的神经网络有很多层,最底层识别到的可能只是像素,慢慢有边缘,再往上有轮廓等等,模型不断往上寻找这张图片的特征,而这个辨识特征的模型是不断可以向上分层的,最终一张图可能被分成无数个特征点,每一层的函数计算可能很简单,但如果层级够深,一层嵌套一层,模型足够复杂,对图片的识别能力就越强。


2012年ImageNet竞赛时,冠军只用了8层,到2016年已经可以做到1207层,现在更是超过了2000层,这是一个非常庞大的系统,深度神经网络对算力的需求可想而知。


但反过来想,“只要做到这三点,我们就能做到一个好的深度神经网络。而更重要的结论是:这三点猜测没有说非要神经网络不可,我们可以研究神经网络之外的模型。”这是周志华和他的团队提出“深度森林”的根本理论基础。


2

“深度森林”首战:找出非法套现者

“深度森林”也是深度学习的一种,但它并不是神经网络,而是不使用BP算法训练的深度模型,是基于决策树的深度模型。


研究非神经网络的意义在于,“机器学习早就知道,没有任何一个模型可以包打天下。”周志华表示。


而且从应用价值的角度讲,在图像、视频、语音之外的很多任务上,深度神经网络往往并非最佳选择,不少方面,比如符号建模、混合建模、离散建模等问题上,甚至表现不佳。


“深度森林”模型得到的结果和深度神经网络高度相似,但和神经网络不同的是,它不需要手动调整模型参数,可以自适应模型复杂度,可以用同样一套参数,用在不同的任务中也不需要逐任务慢慢调参数,还可以根据数据的大小自动来判定该模型长到什么程度。


这大大解决了神经网络的黑盒子问题,并提升了混合数据建模后的计算效果。周志华曾与国内某金融公司合作对判断“非法套现者”做了测试,需要做的是检测出欺诈行为的潜在风险,以避免不必要的经济损失。


从此前相关论文中可以看到,在训练初期,测试组收集了四个方面的原始信息,包括描述身份信息的卖家特征和买家特征,描述交易信息的交易特征和历史交易特征。如此,每当一次交易发生时,就能收集到超过 5000 维的数据特征,其中包含了数值和分类特征,而且有大量符号化的数据。



可想而知,原始数据的维度高达5000维,其中很可能包含一些不相关的特征属性,如果直接使用的话,整个训练过程将非常耗时,同时也将降低模型部署的效率。


事实上,与之前最好的MART模型相比 (由600个树结构构成的MART模型),深度森林模型 (以MART模型为基础模块,每个 ART模块只需200个树结构) 能够以更简单的结构带来更显著的经济效益,大大降低了经济损失。


不过,“深度森林在实验中做到21层就做不下去了,其中很大一部分原因在于没有找到适合加速的硬件,”周志华表示,“现代的智能应用需要框架和特殊硬件,从另一个角度来看,打破神经网络、GPU、TensorFlow 等硬件和技术的垄断也可以降低智能化时代‘缺芯少魂’的风险。”


联邦学习

打破信息间的不信任

人工智能的场景包括很多方面。在金融业,以用户数超过1.7亿的微众互联网银行为例,人工智能和机器人在其中的作用是在用户办理业务的过程中,审核、批准各种贷款文件,对申请人进行人脸识别、语音识别的核验等等。在这些应用中一个元素至关重要——数据。


1

数据孤岛依然难打破

实际上,直到今天,深度学习能够运用到的数据仍然非常有限。比如在法律领域,积累一条有效的数据需要很长时间,而且法律的数据最多积累一万条就很难再有量的突破;在金融领域、医疗领域更是如此。由于监管、安全、利益等原因,不同医院之间的数据往往不能够互相传递,在这个情况下,即便有强烈的需求把数据聚合起来还是很难。


此外,随着欧洲GDPR的正式提出、国内相关法律的陆续出台不难发现,社会对用户隐私的要求越来越高,公司之间进行数据交换的限制也越来越多。在此情况之下,大数据的形成就变成一个挑战。



在2019世界人工智能大会科学前沿的主论坛上,国际人工智能联合会议理事会主席、香港科技大学教授杨强提出了一个新的解决方案——联邦学习方法。


杨强表示,所谓联邦学习的方法,就是如果我们有办法让数据的拥有方在数据不出本地的情况下,建立一个可以共享的模型,与此同时在建立模型的过程中不违反用户的隐私,那么整个建模的过程就叫联邦学习的框架和算法。


众安保险数据智能中心总经理孙谷飞告诉《IT时报》记者,联邦学习2016年由谷歌提出,用来优化安卓输入法的模型。比如,谷歌想给每个安卓手机优化输入法,但不可能把每一台安卓手机用户打的文字都上传上来,这有严重的隐私问题。所以想的方法是在基础端学习本地的模型,把每一个参数上传到“云服务器”,并且在云端进行模型的融合,最后再将优化的结果推送到客户。


2

让不同机构间有共同语言

“在保护隐私的过程中,一共有三种模式进行联邦学习,分别是横向联邦学习、纵向联邦学习和联邦迁移学习。”杨强说道。


横向联邦学习是不同的机构共享一些用户的特征,这些机构可以把这个模型通过横向联邦学习更新聚合,过程中可以保护隐私;纵向联邦学习则是,不同的机构虽然不共享用户的特征,但是他们却共享用户的ID,可以利用这些散落在各地的数据形成一个整体的模型联邦,对此加密之后,使得各个机构的数据不出本地就可以进行用户隐私的保护;联邦迁移学习则是,用迁移学习的算法把两方数据的模型的本质给挖掘出来,把抽象的模型加以聚合,那么在这个聚合的过程中就保护用户隐私。


目前,联邦学习在产业界的应用已经有了长足的进展,在第一届国际联邦学习的研讨会上也开放了世界上首个联邦学习的开源平台。



孙谷飞透露,在保险行业的业务场景里,目前联邦学习的方式分为两类。第一类是行业内共享,大家有差不多相同的X值和Y值,可以促进整个行业的数据共享和积累,主要涉及联合风控和定价,比如意外险累计的保额。举个例子,去年有一个用户短期之内在很多保险公司买了非常高额的意外险,这是很典型的欺诈行为,如果大家把累计保额通过隐私方式共享出来,可以很好杜绝此类风险。


第二类场景是跨行业共享。各场景方X轴可以给保险公司更好的补充,让保险公司可以多方面了解客户,比如做各种互联网的险种,可以跟一些电商公司进行合作,了解平常的一些购买行为,就可以很好地做运费险定价。


杨强表示,目前他和团队正在建立一个国际联邦学习的标准,使得不同的机构之间可以有共同的语言,这样在建立联邦学习共同模型的时候,各方可以更敏捷地沟通。


作者郝俊慧 李丹琦

编辑挨踢妹

图片/网络

来源/《IT时报》公众号vittimes

往期回顾

登录查看更多
3

相关内容

【干货书】机器学习Python实战教程,366页pdf
专知会员服务
340+阅读 · 2020年3月17日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
机器学习:从入门到晋级
云栖社区
4+阅读 · 2018年11月21日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
干货 | 一文总结机器学习类面试问题与思路
THU数据派
3+阅读 · 2018年7月15日
关于机器学习,你需要知道的三件事!
云栖社区
3+阅读 · 2018年3月3日
如何用人工智能帮你找论文?
AI100
10+阅读 · 2018年2月21日
90 道名企笔试和算法题 (含答题讨论)
技术最前线
6+阅读 · 2018年2月3日
人工智能的阴暗面
计算机与网络安全
6+阅读 · 2018年1月8日
关于人工智能(上)
七月在线实验室
4+阅读 · 2017年9月13日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
Arxiv
5+阅读 · 2018年10月4日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
11+阅读 · 2018年7月8日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关VIP内容
相关资讯
机器学习:从入门到晋级
云栖社区
4+阅读 · 2018年11月21日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
干货 | 一文总结机器学习类面试问题与思路
THU数据派
3+阅读 · 2018年7月15日
关于机器学习,你需要知道的三件事!
云栖社区
3+阅读 · 2018年3月3日
如何用人工智能帮你找论文?
AI100
10+阅读 · 2018年2月21日
90 道名企笔试和算法题 (含答题讨论)
技术最前线
6+阅读 · 2018年2月3日
人工智能的阴暗面
计算机与网络安全
6+阅读 · 2018年1月8日
关于人工智能(上)
七月在线实验室
4+阅读 · 2017年9月13日
Top
微信扫码咨询专知VIP会员