漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键

2017 年 4 月 6 日 新智元

   新智元报道  

作者:张易


【新智元导读】蚂蚁金服副总裁、首席科学家漆远博士在新智元2017开源·生态AI技术峰会上阐释了 AI 技术在金融场景中的应用和巨大价值。漆远特别强调了场景化对于 AI 技术的意义,并以智能客服、个性化产品和资讯推荐及保险等具体场景为例加以说明。特别地,漆远指出了当前 AI 技术应用中存在的一些挑战,富有借鉴意义。


 

 “蚂蚁金服是一家技术驱动的公司,我们做的事情,是使 AI 技术成为普惠金融的支点。”蚂蚁金服副总裁、首席科学家漆远博士,在有中国“ AI 春节”之称的新智元2017开源·生态AI技术峰会上表示。


大约一个月前,在北大“人工智能前沿”系列课程的讲堂上,作为特邀演讲人的漆远已经将 AI 技术和普惠金融的概念结合到了一起。在新智元 AI 技术峰会上,漆远再次强调:“蚂蚁金服核心的关键点在于普惠的金融服务,而实现普惠金融服务依靠的技术就是人工智能和大数据。”


场景!场景!场景!


从技术到落地,AI 的场景化应用成为本次新智元技术峰会上的一个关键词。漆远指出,在杭州,蚂蚁金服和城市政府直接对接了超过100项市政服务,比如司机闯红灯,可以通过支付宝进行直接赔付。“再举几个例子,支付宝可以在杭州城区购买地铁票;当芝麻信用超过一定分数时,人们可以免押金入住酒店,免押金租房;人们可以使用支付宝在中医院挂号,可以乘坐公共汽车。其实所有这一切,都是依托场景。”




而杭州的变化只是中国万千城市的一个缩影,“在浙江,一年有6亿人次享受城市服务,全部通过手机实现。例如,95%的超市、便利店可以用支付宝进行付款。这些数据背后,可以看到一个人的吃穿住行等方方面面。如此触达的条件实际上为我们奠定了非常坚实的基础,能够让我们把技术和场景结合起来,提供真正有价值的服务。”



“大家会问,讲 AI 为什么要讲这些?最近有人写了一篇文章,讲 AI 的娱乐化趋向。这其实是讲了一个 common sense,就是做 AI 离不开场景……我相信技术是第一生产力,关键是怎么落地,在商业场景里发挥出价值。”


 

漆远认为,一个非常重要的经验是,“不要为了做技术而做技术,一定要想到有商业价值的、有数据的场景,场景非常关键。否则,只是在公司里面闭门造车,做了也没有用。如果是初创公司,这公司已经注定要完蛋。这其实是非常关键的一个point。比如说我在阿里做第一个项目,是做参数服务器,就是分布式机器学习平台。但是我们找的第一个应用点特别简单,大家猜猜什么场景会有商业价值?对,就是广告。”

 

“于是我们就在CTR预估上采用了这个系统。因为这个系统只要能提升1‰,就有很多收益;提升1% 的收益就更多。我们当时做这个项目,应用在双11实时预测的用户产品推荐上,后来变成了阿里巴巴第一个大规模机器学习平台。所以一开始你要找到一个商业价值的落地点,如果我们做参数服务器,同样的技术,就是死路一条。在公司,在商业环境中,这肯定是没有前途的。”



“又比如深度学习技术的应用。它带来了图像识别、语音识别、NLP 等领域的长足进步,但是它的落地点在哪里?这就要问你的核心价值在哪里。一开始我们就很具体,就做客服。大家可能觉得这不是一个sexy的行业,但是真正能做好就有巨大的商业价值。这同样是要在场景中体现能力。”

 

而对于场景和数据、云计算以及算法的关系,漆远论述到,“其实很多公司今天都正在、或者已经完成国内互联网领域的上半场角逐。之后,大家开始真正竞争的是云计算的能力,比如阿里,比如蚂蚁金服的云,比如微软和Amazon的云,而这背后其实就是数据。比拼的是谁的场景数据本身有价值。其实阿里内部有一个比喻:数据是土壤,土壤上要盖高楼,才能产生价值,这要靠算法,靠人工智能。要真正能把价值体现出来,而不是坐在金山上吃馒头。我们需要通过人工智能,让用户产生的社会数据发挥价值,并将有价值的服务带给用户。场景的 vertical domain 非常重要。场景一边为我们带来数据,一边为用户带来真正有价值的服务。”

 

从智能客服到保险业


在金融服务这一大场景下,漆远特别以其中的智能客服、个性化产品和资讯推荐、保险及自动核赔等多个小场景为例,展现了AI 技术的应用及产生的价值。



“蚂蚁金服正在构建人工智能方方面面的能力和应用,我们在能力上的配备还是比较标准的——机器学习、自然语言处理(NLP)、图像识别、语音识别,尤其是语音识别,完全使用的是阿里集团自己的语音识别能力。蚂蚁金服也在开发许许多多的商业应用。”



“在今天有件事情已经变成共识——如果做平台,没有业务都是会死掉的,这是我们当时战略官的名言。在蚂蚁金服,我们有非常丰富的场景,从信用芝麻分、租车到贷款消费贷、风险控制、营销、智能助理等等,技术本身、数据和商业场景有非常好的结合。”



  • 智能客服

“智能助理在蚂蚁金服有很多的例子,聊天机器人不是我们的重点,我们的重点在产品知识问答,比如金融产品,完成订电影票或者旅行甚至订餐,还有金融服务,比如选择哪个保险比较适合。

   

“在蚂蚁金服,一个标准化的机器人应用就是客服。客服项目在蚂蚁金服可以说是第一个标杆性的人工智能落地项目,它一开始是典型的人力服务工作,在成都客服中心有几千人,每年双11接电话非常繁忙。我们在2015年要做智能客服,使用人工智能算法提升整体客服效率。我们做了大约半年,自助率从60%一下子升到94%,2016年自助率高达97%,去年双11最忙的时候,客服小二实际上非常轻松。今年我们有了一个新的标杆性的指标,两三个星期前刚刚做到。这个新的指标就是不光要自助率高,还要把服务的质量提高,我们要更好地解决问题。两周前,我们已经做到机器人的问题解决率达到了73%,超过了人的在线解决率71%。这是一个标杆的提升。


   

PPT上显示的是三个简单的真实APP展示,展示了机器人本身是怎么来回答问题的;第二,在你没有问问题之前,不靠语音信号或者NLP输入信息,而是通过用户的行为轨迹自动判断当前可能的问题在哪里,系统会根据用户的行为轨迹做出时间训练模型进行分析;第三,人工+智能。我并不是说用机器全部代替人,而是什么时候用人,怎么用机器把人的效率提升。这里我以我们的客服小二和工作台为例,怎么把好的小二的经验变成工作台自身的一部分,利用他们帮助其他的小二工作。这就叫智慧工作台,大规模提升了人类“小二”的服务质量。不光减少了人力,这个项目做了不到半年时间,我们公司统计减去人的成本,减去GPU的成本,公司省下来一个亿多的资金。在蚂蚁金服整体业务迅速扩张的情况下,我们的客服部门人员一直在减少,而所有其它业务人员都在增加——只有客服人员一直在减少,可以看到这个技术的效用。”

 


  • 个性化产品和资讯推荐

“个性化产品和资讯推荐,这里面有很多数据的融合问题,比如电商行为购买数据如何能够帮助财富升值、资讯阅读能不能帮助我们支付消费等等。




这里面有一个比较简单的思想,就是借助我们大量的数据源,建立比较大规模的深度学习网络,把所有数据做一个隐含的表达,在一个空间里面把很多数据源融合到一起。基于此,可以保护数据的隐私,也可以做出很多有意思的应用。



通过用户属性可以分析他的阅读偏好,聚宝头条咨询和社区观点推荐,比原来的算法直接提升了六倍的点击率。大家看PPT,这里显示的是用户对紧身裤、连衣裙选择偏好,漂亮女孩有什么共性?其中一个是她们经常穿比较紧身的牛仔裤,她们中的很多人会购买手机屏幕服务,所以我们为这一人群开发了碎屏险的保险产品。这是个性化产品非常碎片化、但又非常长尾的应用的例子。”



  • 保险及自动核赔

“保险业非常注重大数据应用,从人群定位到识别、从反欺诈到风险定价等等,从头到尾贯穿着数据。运费险是一个现在比较经典的例子,我买东西要退,保险费只要一块多钱,但是每个人不一样,我们做到了完全个性化。一开始这并不是差异化的,而是一口价,所以最初这个生意一直赔钱,后来我们把一个广告的算法用到保险里面,建立了一个人退货概率和产品之间的关系——这其实和很多广告非常类似,一个人点击广告也有概率——计算之后产生新的保险产品,这个保险产品一天盈利就达到几千万。这是典型的碎片化但是极为广泛的应用的例子。”



“自动核赔,用户在手机上报被盗32块钱。人脸识别之外下面还有很多算法和模型自动判断是不是您,其实并不是只做一个人脸识别。整体能够大幅度提升效率。”


一些挑战


对于 AI 技术应用中一些特别需要注意的问题和挑战,漆远此前有过精彩论述。


  • 基于加强学习的对话系统

“其实在对话系统没有很多数据的情况下,一开始你很难做加强学习,有可能你就只能做一个规则技术。但再往后面,可能当你需要完成任务,以任务为目标的时候,你在做 task completion 的时候,就像下围棋,你要完成任务,赢别人。这时候你和用户其实是 interation。这个时候你可以考虑,怎么来介入。大家也知道翻译模型,对话系统很多用翻译模型,我们叫做 seq2seq,也就是sequence to sequence。假如有一堆 sequence,假如是多轮对话,你能不能应付,就是一个 sequence 到另一个 sequence,再到另一个 sequence。这其实都是对技术的挑战,对数据收集的挑战,对数据标注的挑战。”


  • 小数据学习

“这个问题现在也越来越明显了。其实今天讲大数据,有点令人误会。就很多场景下问题的复杂度而言,其实数据并不大。我们要分析风云变幻的市场。就如刚才雷老师说,你看一个公司过去两年的交易数据,其实一点不多,把季报全都加进来。其实一年就4份财报。在数据并不多的情况下,怎么能够把这个小数据学习的问题解决?”


  • 推理和知识图谱

很多问题需要你做推理,如果A发生了,到B,B发生,回到C,你怎样把推理过程做好?今天,大家做了很多深度学习,比如说一个文本里面,A会导致B的发生,你把这个相关的答案找到。但是并不能推理出B到C和C到D。如果做知识图谱,其实跟深度学习没什么关系,今天的深度学习图谱其实是建了一个图模型,然后把这个点一个一个往下推,而这两个框架是完全分离的框架,这其实也是分裂的。大家能不能真正有一套机制,能有推理的功能?这其实既有理论上的价值,更有商业上的价值,巨大的价值。刚才已经提到知识图谱了,大家其实现在有一系列算法讲知识图谱,knowledge graph,但是学术上发表的很多文章,工业上暂时是没法用的。有一些算法——我就不说哪个算法了,有的还是我好朋友写的——很难应用在工业上,为什么呢?因为它基本上不能达到需要的准确性。


  • 无监督学习

“另外,无监督学习也喊得比较响。这是跟小数据学习相关的。很多数据是有标注的,还有很多数据没有标注,那怎么能够把没有标注的数据都用起来,真正做到把数据的所有价值都真正体现出来?当然,在无监督学习和有监督学习中间,还有一个半监督学习(有一部分有标注)。我们怎么把它们结合起来一起进行学习?这也是一个在今天的背景下非常有意义的方向。”


  • 数据和模型的压缩

“从工业界来讲,更实用的是数据和模型的压缩。刚才有人问我说深度学习能不能用于量化交易,尤其是高频。我说高频的话,如果深度学习有好几层的模型,比如做图像有 100 多层。而高频交易希望在千分之一秒或者万分之一秒之内把交易完成,这两个互相矛盾。工业很多应用非常在乎实时性,不能有大量 delay。怎么能做得快呢?这就需要模型的压缩,要用 hashing 等技术,这也是非常好的方向。”


漆远在演讲的最后总结道:我们在做从移动互联网到云计算到端的扩展。蚂蚁金服核心的关键点在于普惠的金融服务,而实现普惠金融服务依靠的技术就是人工智能和大数据。






3月27日,新智元开源·生态AI技术峰会暨新智元2017创业大赛颁奖盛典隆重召开,包括“BAT”在内的中国主流 AI 公司、600多名行业精英齐聚,共同为2017中国人工智能的发展画上了浓墨重彩的一笔。


点击阅读原文,查阅文字版大会实录


访问以下链接,回顾大会盛况:






登录查看更多
0

相关内容

漆远,蚂蚁金服首席数据科学家,麻省理工学院博士,国家千人特聘专家。目前致力于大规模机器学习和深度学习平台的建立及其在蚂蚁金服各项业务的应用。担任过机器学习权威杂志Journal of Machine Learning Research的执行编辑和机器学习会议ICML的领域主席,获得过微软牛顿研究奖和美国科学基金NSF Career奖。
德勤:2020技术趋势报告,120页pdf
专知会员服务
190+阅读 · 2020年3月31日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
新时期我国信息技术产业的发展
专知会员服务
69+阅读 · 2020年1月18日
2019中国硬科技发展白皮书 193页
专知会员服务
81+阅读 · 2019年12月13日
AI产业链分布图曝光:1040个玩家,BAT率先步入应用
全球人工智能
20+阅读 · 2019年5月11日
深度|拥抱人工智能报告:中国未来就业的挑战与应对
机器人大讲堂
6+阅读 · 2018年9月24日
【人工智能】180页PPT,讲解人工智能技术与产业发展
挑战:化妆VS人脸识别
京东大数据
4+阅读 · 2017年11月4日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
Top
微信扫码咨询专知VIP会员