采写:鸽子
7 月22 - 23 日,由中国人工智能学会、阿里巴巴集团& 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将在杭州国际会议中心盛大开幕。
大会开幕前,CSDN独家采访到本届大会程序委员会主席、蚂蚁金服副总裁兼首席数据科学家漆远博士。
本次采访中,漆远博士首次对外批露了日前刚刚完成的一项重大创新——把深度学习和图模型结合起来,在知识图谱上做相关推理的能力,这在行业应用上绝对是第一次。
此外,漆远博士还谈到了蚂蚁金服目前正紧缺的图像人才,以及蚂蚁金服特别欢迎既懂金融又懂算法的人才。
而谈到即将举办的CCAI大会,漆远更是真性情地说到,“我们以前在国内,网红多了点,真正的这种技术性的会不是特别多。这次CCAI大会,请到了普林斯顿、佐治亚等很多一流的教授,他们是真正的领头羊,真正的高手。“
以下为漆远博士的访谈内容。
来阿里做的三件事
CSDN:阿里在人工智能上的布局,一直是外界关注的焦点。您当时从普渡大学来阿里后主要做了哪几件事?主抓的第一件事是什么?
漆远:在阿里三年时间,简单来说主要做了三件事,一个是分布式机器学习平台,就是大规模参数服务器平台;一个是语音识别;再一个是人工智能平台PAI。应该说这三件事情为阿里在AI方面奠定一个比较好的基础。
来阿里后做的第一件事是分布式机器学习,当时一来就主抓这件事,因为阿里急需这么一个平台,而我自己也比较擅长。
在麻省理工,我当时在《Nature》以第一作者发表的文章,就是用分布式计算来做的,通过机器学习来分析海量的生物数据。
后来到了普渡大学教书,我做了两个项目,一个是通过分布式机器学习算法来分析生物数据,这个跟我来阿里特别相关。另外一个GPU,2008年我开始用GPU来训练机器学习文本分析模型,然后通过计算并行化加速,这个跟我后来的研究也一脉相承。
CSDN:这个分布式机器学习平台用是怎么实现的?
漆远:首先是基于参数服务器,后来我们用到了参数服务器的框架,再后来我们又在上面做了实时学习,开发了深度学习,接着在PS框架做了深度学习框架。这个东西做完之后,有一个简单的指标:百亿的特征,数据做到千亿,参数做到万亿。其实去年有个大公司开源特征规模10亿,数据百亿,参数千亿,这个数据乘以十差不多到我们的级别了。这个其实我们2014年就做了,我们直到三年后才对外公开。
这是一个工业界的算法和业务的结合。这跟学校做的工作相关,但是有很大的不同。这是实打实的,必须稳定,我们把阿里妈妈的特征数直接从2000万提到近百亿,RPM直接提升8%左右,这就意味着上亿的收入提升。
从广告的搜索到推荐到菜鸟等,全集团都在使用这个分布式机器学习平台。
蚂蚁金服的风控、CTR及智能助理
CSDN:这之后您去了蚂蚁金服,蚂蚁金服吸引您的地方是?
漆远:当时我来阿里面试的时候,就奔着这个了。当时就觉得,蚂蚁金服AI平台有大量的适合机器学习的场景。AI要落地,除了平台就是场景,场景非常非常必要。普惠金融这个场景就特别适合AI。普惠要服务很多人、很多中小企业,这里面一定是技术驱动的。人是没有办法做普惠的。而蚂蚁金服恰恰就做的是普惠金融。
CSDN:蚂蚁金服常提的概念是TechFin,用科技为金融赋能。这里面关于风控,主要用了什么技术模型?里面的原理是什么?
漆远:风控这块主要是无监督学习。里面的思路是,假如你能把用户之间的关系,他们正常行为分析得很好,那就可能发现有哪些不正常的。在统计机器学习里面我们叫做异常检测。如果我们用一个更好的模型来分析正常的用户行为,就可以分析异常的行为。跟正常不一样的,可能最后就是异常。
其实我们并不知道哪些数据特征和风险相关,哪些不相关,所以我们就把当初开发广告的一套技术思想,用在风控里面。通过机器学习,一个是保证准确性,一个是误识率这两个的平衡,我们就能够在抓到足够坏人情况下,不打扰用户,减少上千万次的用户打扰。这里面灌入我们系统里面用户行为轨迹的数据,然后再把这种特征变换的技术和深度学习的技术做一个结合,运用在风控里面,而且效果非常好。
数据的实时性和多维度非常重要。结合用户本身的行为轨迹,就可以分析是否是一个欺诈行为,盗号或者洗钱行为。
CSDN:来蚂蚁金服后,您主抓三个方向的落地:广告预测CTR,AI助力金融科技TechFin,还有智能助手。关于广告预测CTR,讲一个特别创新的例子吧,以及背后的技术点。
漆远:那我说说口碑吧。CTR对它的提升特别大。
我说说这背后的技术亮点。这里面就是一个矩阵分解和哈希算法,可以完成十亿数量级的超大规模学习。
这种情况下怎么加速?
我们把它和哈希算法进行结合,结合之后可以大规模提升效率,同时保证预测的精准性。这算是一个直接的技术创新。工业界讲究稳定性,在稳定的技术上讲究速度和计算的资源消耗程度,然后才是准确性。
CSDN:目前来说,您主要的精力是抓什么?
漆远:从技术本身,我们现在比较关心的其中之一是智能助理的发展,然后另外一个就是蚂蚁金融大脑的构建。我们希望通过智能助理,帮助蚂蚁变成一个智能的一站式生活服务平台。
比如转账给某个好友,直接说句话,支付宝自己就给你转了,你只需要点击确认。比如你要找到一个埋得很深的城市服务,打车,买电影票,你对助理一说,就完成了。这个是我们比较关心的方面,涉及到很多机器学习,自然语言处理,对话技术,知识图谱还有推理能力。
另外一个就是蚂蚁的金融大脑,这个金融大脑要理解市场的风险,包括信用风险、理财风险等,并从多个角度来理解它,这个是我们金融大脑的定位。这也是我比较关心的一个事情。
再一个,是希望把我们的AI能力直接赋能到现在所有业务领域,对我们业务的发展,就像水一样注入所有业务的发展。
CSDN:蚂蚁金融大脑比较难攻克的地方是?
漆远:金融大脑的核心能力就是推理,推理是一个核心问题。从推理到决策,怎么能够保证它是一个系统化的风险刻画,而不是单个的单点的刻画。
深度学习应用很多都是单点模型,比如预测这张脸是不是你,预测图片里面是狗还是猫。这是单点的。但金融里面很多是一个网络结构,是一个系统。
这与大家平时外面听得比较多的图像识别不太一样。
CSDN:智能助理,从您开始创立到现在,已经到了什么阶段,取得了什么实质性的效用呢?技术难点在哪里?
漆远:蚂蚁金服业务的迅速扩张,对客服人员的需求量还是非常大的。去年的双十一,客服已经做到97%的自助率了,满意度也高。因为自助率高的话,大部分使用自助程序的机器人干得比人还好,人的满意度也很高,比真人提供的客户质量、满意度还要高,这是一个直接的表现。
这里面的技术难点包括推理,对知识库的理解、知识图谱的构建等。
CSDN:目前在工作上,有什么问题是想解决还没有解决的?
漆远:怎么把公司的长期目标分解成一个短期的算法指标,这个还需要思考。
CSDN:可否透露一个您还从来没有对外讲的料?
漆远:我们正在知识图谱上做相关的推理能力。我们把深度学习和图模型结合起来,在风险上做出了新的东西,这个是非常大的技术亮点。
深度学习以前和图模型是分开的,并没有做推理能力。我们把这个结合起来,直接大规模的提升了我们效率,上星期刚做到的,这个还没有对外讲,绝对是独家专有的。
深度学习怎么推理,是一个技术难点。怎么从这个知识点推到下个知识点,下个知识点推到下下个知识点,这个其实并不容易的。
因此在我们行业应用,这绝对是第一次。其实在整个世界上,这个技术本身也是非常领先的,可以说是最领先的。前两天有一个伯克利一个教授来了之后,聊完之后也是非常震撼。
CSDN:问一个俗套的问题,在金融领域,您觉得哪些领域、哪些职业是很容易被未来的AI取代,哪些是不太容易被取代的?
漆远:重复性的,没有真正创造性的工作,我觉得从长远来讲会收到很大的冲击。
假如你的工作每天一模一样,天天看一个财报,拿一个规律做一个结果,将来就会非常危险。最简单的例子——贷款,对于贷款审计,数据就可以利用算法自动完成。
蚂蚁金服急需的人才
CSDN:问一些大家都迫切想知道的问题。蚂蚁金服现在估值600亿美金,很多人也希望进入里面工作。您对人工智能团队的要求是什么样的?什么样的人才能够进入到蚂蚁金服的和您一起来工作呢?
漆远:对团队的要求是,既叫座又叫好。
叫座的话,首先能够解决实际问题,见效果,从问题出发,不是拿着锤子找钉子。
叫好的话,希望有技术深度,当然这里面需要平衡,有的同学算法多一点,有的搞工程多一点。
我们的团队不是一个刷单的团队,刷各种外面的公开比赛,我们是真正要解决实际问题,一方面提升蚂蚁金服甚至服务整个阿里经济体,解决大家遇到的核心的AI问题;一方面我们要产生新的产品、新的服务,能够造成新的增长点,这是目标。
这就直接映射到我们对人的需求上来。
我希望加入我们团队的人,首先能够对机器学习技术本身有真正的热爱,没有热爱就比较难做。因为技术说起来很高大上,真正做起来需要投入的精力,不是短期的,也不是表层的。
第二,对于人才我们既需要全栈型的,也需要对某技术特别钻深的。如果两个都很强,那就更好了。
CSDN:没有名校背景的人,但是有一些实战经验,这样的人才也OK吗?
漆远:实战经验看怎么定义,实战经验如果是自学,真正学了很多机器学习的技术,真正比较深入地掌握了技术,有基础并且还能进一步提升,这种实战经验就非常好。
如果只是拿开源软件做了一个模型,对背后的思想和原理并不明白,那我认为这个潜力就不是非常高了。
CSDN:现在急缺的是哪一类人?
漆远:急缺的图像上的人。图像市场竞争激烈,好的人才,大公司、创业公司抢得非常严重。好的算法人才,永远都不够,但是除了算法人才本身,工程和产品我们一样很缺。
还有一个方向,既有金融经验,又有算法经验的,也非常缺。我们用科技服务金融公司,假如能和金融协调起来,那就更好了。
麻省理工及普渡大学的影响
CSDN:从阿里到蚂蚁金服,您操盘过的内容包括机器学习平台、语音识别、PAI平台等,为阿里奠定了一个比较好的AI基础,您觉得哪段经历对于今天的您影响重大,麻省?还是普渡?两个学校有什么不一样?
漆远:当然不一样了。
在麻省读博时,主要是理论基础的学习,博士后就是创新了,开始做各种算法,然后是应用,包括基因解码、生物信息上的应用。
麻省理工是当之无愧的世界最牛的科学和工程学校。我们住在学校楼里,和诺贝尔奖获得者一起吃饭、聊天。比如人工智能创始人马文·明斯基,与他们交流,对扩大思路,提升眼界,有很大的帮助。
在麻省理工收获的很重要一点就是,不迷信任何权威。
在普渡当了老师后,更多会思考哪些是机器学习人工智能可能有的方向,技术本身突破的方向,社会应用哪些是最关键的。
在普渡做老师和做公司其实是一样的,你要自己拉项目基金,自己招人,自己设定方向,自己产出复盘,整个体制和你在做一个创业公司是非常像的。
普渡当时一个优势是计算机系和统计系的结合,因为机器学习本身是计算机和统计、优化形成的融合。这个对我来说非常吸引。
当前感兴趣的理论
CSDN:您现在最感兴趣的前沿理论是什么呢?为什么?
漆远:现阶段比较关心两方面的理论,一个是推理,一个是先验知识结合小数据学习。
我对物理也是感兴趣的,我从物理学、包括经济学看到很多结合点,总结来说对三点比较感兴趣。
一个是物理上非均匀态的物理学和机器学习的结合;
第二个是非均匀动态变化系统和机器学习的结合,我们叫动态系统;
第三个是博弈论和机器学习的结合。
大会不要网红,要真正的高手
CSDN:今年阿里是联合主办方CCAI大会,您作为程序委员会主席,准备发表一个什么样的主题演讲,透露一下。
漆远:保留期待,这个大会上我会告诉大家。
CSDN:阿里今年来参加这场偏学术性的大会,做CCAI的大会主办方,你认为这次大会有什么样的亮点,以及有什么样的期待。
漆远:其实从我个人来讲,中国很多人工智能峰会,真正有技术含量的会议并不多。本次大会的亮点,就是邀请到很多海外学者,包括来自普林斯顿、佐治亚的一流教授,国内南大、清华、交大等的教授,他们是真正的领头羊,真正顶尖的高手。
国内网红多了点,真正的技术性强的会不多。我们希望推动人工智能真正在技术深度上的发展。
还有一个亮点,是我们需要把蚂蚁的问题介绍给大家,不只是蚂蚁,还有整个金融行业的问题,和大家来沟通和分享。
CSDN:最后一个问题,请您分享一句话,一句话您在AI之路上,对您帮助最大的一句话,或者是您多年从事AI这一块,最大的一个心得体会。
漆远:Assume nothing, question everything. (不事先做任何的预设,敢于质疑一切)
很多问题本身要从基本原理出发,不应该带着有色眼镜,不管是商业还是科技还是技术链的,大家要敢于从独特的角度来思考。我觉得做科学和做公司,到最后的相通之处,都是从基础的原理、从最基本的问题出发,这个非常关键。
所有大牛所有的理论,都有可能是错的。你要敢于质疑现有的状况,现有的方案,想到更好的方案,不是人云亦云。
漆远博士简介:
漆远,现任蚂蚁金服首席数据科学家。麻省理工学院博士,国家千人特聘专家。目前致力于大规模机器学习和深度学习平台的建立及其在蚂蚁金服各项业务的应用。担任过机器学习权威杂志Journal of Machine Learning Research的执行编辑和全球机器学习顶级会议ICML的领域主席,获得过微软牛顿研究奖和美国科学基金NSF Career奖。
在微信公众号会话中输入“QY”,即可打包下载漆远老师参与完成的33篇论文。
专属福利:中国国内级别最高、规模最大的人工智能大会——中国人工智能大会(CCAI)将于7.22-7.23在杭州举行,目前大会 8 折 专属优惠门票火热抢购中,赶快扫描下方图片中的二维码或点击【阅读原文】火速抢票吧。
中国人工智能大会(CCAI),由中国人工智能学会发起,目前已成功举办两届,是中国国内级别最高、规模最大的人工智能大会。秉承前两届大会宗旨,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将于 7 月 22-23 日在杭州召开。
作为中国国内高规格、规模空前的人工智能大会,本次大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。
戳原文,抢 8 折优惠门票!