肖京是美国卡内基梅隆大学的计算机博士,从 1995 年开始,研究方向一直是计算机视觉和模式识别。在卡耐基梅隆计算机学院机器人研究所,肖京在人脸识别、情绪识别、面部跟踪等方向,都做了深入的研究,并获得了数个美国授权专利。迪士尼电影公司和维塔数码 (Weta Digital) 就曾经购买了肖京的一项专利授权,并将其运用于电影特效,比如电影《阿凡达》,人物的面部特效就采用了这一专利。
计算机视觉技术发端于上世纪 80 年代,但是长期没有得到真正的应用。肖京曾参与过美国中央情报局的一个测谎项目,通过人脸的微表情变化,来看这个人是不是在撒谎。但当时做出来之后基本没派上什么用场,因为做不到特别准。人脸识别也是差不多情况,识别数量过万之后,识别精度就大大下降。美国联邦调查局曾投入很多资金做人脸识别的研究,后来在一些机场试了一下,发现效果非常差。
博士毕业以后,肖京加入了爱普生美国研究院,负责算法部门。爱普生有一个很大的业务领域是精密仪器和传感器,所以这个研究院除了做主营业务打印机、复印机和投影仪以外,也做了很多传感器数据分析。肖京当时的工作涉及到的数据种类特别多,应用方向也很广。事实上,这一点与平安集团有点相似,只不过平安是在金融和医疗领域,爱普生是在传感器和消费电子领域。
在企业里,肖京大展拳脚。比如人脸三维呈现技术,就可以用在打印机上,用户扫描一个照片进来,但是对自己的脸不够满意,想把肤色变白一点,眼睛大一点,脸小一点等等,可以很方便的直接在扫描仪上做到。这一模型还能实现从单张照片恢复一个人的面部三维图像。传统方法要使用几个摄像头同时拍才能做到这一点,而肖京的方法只需要使用一个摄像头。这样生成的三维图像,也可以用于 3D 打印机的内容生成。
还有可以用于医疗的传感器。比如心脏病患者,心肌异常的运动会产生一些微弱电流,这些微弱电流产生磁场,通过电磁传感器可以检测到。肖京和团队做了一个人工智能算法,可以通过多个传感器,推出一个 200*240 万精度的图片出来,能够精确定位心脏里面的异常电流在哪里。当时世界上可以实现的最小误差是 1.4 毫米,而肖京他们的技术将误差缩小到了 1 毫米以下。这一方法也可用于脑部肿瘤的定位。
这样的例子还有很多,三维投影、静脉识别、行人检测……肖京共获得美国授权专利 80 多项,这些专利大多已经被广泛使用。这并非偶然,肖京的观点是,炫技没什么意义,做任何技术研发都要有目标,都要跟公司的战略一致。能在业务上产生价值的才是好技术,所以他的很多专利都是有实际用处的。这与平安集团务实的风格不谋而合,也是他选择回国加入平安科技的重要原因。
说到平安科技,不得不提一个人——平安集团董事长兼首席执行官马明哲。他是一位很有远见的人,很早就觉得数据是战略资源。毕竟对于一个有 150 多万名员工的庞大企业来说,做决策不能依靠直觉判断和主观喜好,通过分析数据,基于数据的支撑点做决策,才是最合理的。所以他多年前就已经要求平安科技做大数据的布局,做相关技术的研发,并且应用在业务场景上。
如今的平安科技可以从容应对业务每天产生的大量数据,但在大数据平台建立之初,技术团队也曾面临很大的挑战。
最大的困扰恰恰来源于集团的庞大。肖京用“信息孤岛”来形容曾经的平安集团。作为世界五百强企业 Top50 榜单中的一员,平安集团单单是一级子公司就有近三十个。每个子公司都有自己的一套数据化方案,这意味着要把这些医疗数据、金融数据等等打通,首先需要进行数据的清洗,形成统一的标准,才能整合到一个平台上来。
这只是第一步。之后数据会不断地更新,必须建立一整套更新迭代的机制,让新的数据内容能很方便地加进去。数据打通以后,安全性也变得非常重要,一旦出现安全泄露,可能所有数据都会出问题,这也是平安科技面对的主要挑战之一。
但是成功将数据打通和整合仍不意味着大功告成。数据本身没有价值,一定要跟分析结合起来才有价值。讲大数据一定要讲分析技术,分析技术就是人工智能技术,所以大数据和人工智能是绑在一起的。
在肖京看来,人工智能技术要在传统行业落地,需要满足几个要素。第一个要素是本身要有数据,没有数据你做不了什么事情。作为一个全牌照的金融公司,平安集团拥有最全、最深、最广的金融大数据,这一点是国内绝大部分企业都难以望其项背的。而且这些数据全部来自业务,不需要通过搜索或者社交行为去猜测估量,精度和可信度都更高。仅拿车险一项来说,每年上千万起理赔案例中,每一起都会收录 50-100 张图片,每年产生大量的图片支持算法模型的建立。
第二个要素是有技术能力,包括基础的计算平台,计算能力,以及算法。平安集团有自己的五大数据中心,以及强大的技术架构平台。包括在金融和医疗领域处于绝对领先地位的平安云,也从侧面证实了其在算法和平台方面的优势。
第三个则是要有场景和专家。要做数据分析,如果不知道痛点在哪里,肯定做不出好的结果来,所以专家的指导非常重要。而平安集团近三十年来积累了非常多的业务场景,并且吸纳了大量的行业专家。
这是一个很容易被忽略的关键点。肖京举了一个简单的例子,在 AlphaGo 赢了李世石和柯洁之后,所有人都记住了谷歌旗下的 DeepMind 公司。但是人们不知道的是,同时期 Facebook 也有一个下围棋的人工智能项目,名为“黑暗森林”( Dark Forest)。它的技术以及团队和 AlphaGo 不相上下,但是棋力却差得很远。原因很简单,这个开发团队里没有人懂下围棋,缺少这方面的专家。
通过多年的积累,平安科技在人工智能领域已拥有多项世界领先的技术。肖京举例说:“2017 年 5 月,国际权威人脸识别公开测试集 LFW(Labeled Faces in the Wild) 公布了最新测试结果,平安科技人脸识别技术以 99.8% 的识别精度和最低的波动幅度领先国内外等知名公司,居世界领先。尤为难得的是,这些技术都快速地与业务场景相结合,实实在在地解决了问题。
以车险理赔为例,平安集团是目前世界上唯一完全实现图像识别自动定损的保险企业。从去年 10 月开始试点,到今年 6 月全国展开,现在平安车险每天处理三万多起案件,都是通过图像识别,并且能够达到 90% 以上的精度。
平安的车险自动定损系统背后还有一个庞大的知识图谱,可以解决很多问题。比如这个知识图谱覆盖了六万多个车型,两千多个配件,可以非常精准的识别车型,通过图像识别出来哪个部位有什么样的损伤,马上就能精准的定价。甚至能够区分一个同样的配件在不同地域的价格差异。
此外,保险行业一直存在欺诈问题,车险的欺诈比例非常高,造成的损失以十亿百亿计。为解决这一问题,平安车险自动定损系统有一个三万多个规则的反欺诈引擎,能够自动识别很多欺诈,减少企业的损失。这在全世界保险行业都处于领先位置。
2016 年,平安集团提出“平安 3.0”的战略目标,把“互联网 + 金融”模式向全行业开放,携手金融同业伙伴,共同利用新科技,打造更加强大的、开放式互联网金融服务平台。为此,平安科技通过国际前沿的数据挖掘、机器学习、深度学习等技术,研发了大数据平台产品——“平安脑”,支持集团战略转型。仅一年,“平安脑”已帮助平安集团识别大量“骗保”,减少了 20 多亿元的资金流失;还引领业务创新,为客户提供智能健康管理、保险自助理赔等人工智能服务。
肖京为我们详细讲解了“平安脑”的结构。第一层是原始的数据,就是前面提到的标准化的大数据平台,这一层主要做清洗整合、标准化、安全管理、质量控制,要保证不断得到的一些数据,其质量能够支持后面的分析。
第二层是画像脸谱层,可以把原始的数据根据个体、企业、渠道、产品等分门别类,做成各种丰富的画像,变成一些标签。在画像这一层,数据就没有隐私信息了,全是脱敏的标签;第三层是分析层,这个分析层会使用大量人工智能技术,商务智能技术,统计分析技术,包括结构化数据,非结构化的深度学习等等技术,都在第三层;再上一层是解决方案层,这一层会有个人的风控解决方案,企业的风控解决方案,欺诈识别解决方案,智能推荐解决方案等等;最后就是应用层,解决方案怎么在各个业务里真正落地,跟业务具体流程怎么结合,业务哪一步分别用解决方案的哪一个模块等等。
平安科技通过这样一个智能引擎,来助力整个集团的业务充分地利用先进技术。未来他们还要不断增强“平安脑”的实力, 使其充分成为大健康、大金融方向上的“智库”。
很多人对人工智能的最初印象,来源于好莱坞科幻电影,肖京也不例外。肖京童年时是在部队大院长大的,基本上每周有电影看,但是让他印象最深刻的,是 1976 年上映的美国科幻电影《未来世界》。电影里的很多特效场景,比如人类控制拳击机器人对打,下棋时棋盘上的“马”变成了活的,他至今还记得。里面的一些场景,现在在现实中已经可以实现了,这也让肖京切实地感受到了技术的进步。
肖京认为,人工智能曾有过两次兴起,两次衰落,而当下是第三次兴起。前面两次衰落,主要原因是没有产生价值。“因为人工智能有一个问题,它很少百分之百正确,就跟人一样。但是人的错误改正起来比较方便,而计算机系统改正的成本很高,也比较复杂。所以要把问题定义清楚,哪些问题是适合用人工智能解决的,如果这个问题太大怎么缩小,缩小到既有业务价值,又能够真正用起来。”
对于人工智能的这次兴起,肖京觉得完全在预料之中,而且这一次兴起与前两次有个本质区别。这和互联网的发展有很大的关系,互联网行业比如说搜索广告,地图等等,人工智能技术产生了很多价值,因为很多时候这些东西不需要百分之百对,有点错误也没关系。当然,技术的进步也是必要因素。最近这些年计算能力提高了,数据量也有了很大的提高,可以做的事情多了。以前第一次兴起的时候,尽管那时的电影或广告中已经预言了机器人助手,但那时一个知识库,一个字典只能放几十个单词,根本不可能做出来可以对话的机器人。
肖京很确定,人工智能一定会在我们生活中越来越常见,越来越产生价值。而他现在最感兴趣的,就是人工智能在金融和医疗领域的应用:“我们说科技引领金融,科技最终还是要在金融上落地,才有价值。我们集团的战略是大金融和大医疗。在金融和医疗领域,我们觉得哪些地方利用人工智能技术,能够提高效率、提高效果、提高用户体验、降低成本、降低风险,我们就去做。”
具体来说,平安科技关注的主要问题集中在几个层面。金融业最核心的就是风控,通过人工智能技术预防或者及时制止风险和欺诈,是平安科技始终要做的重要工作。其次是获客,通过非常精准的分析,很快知道用户需要什么,然后给他推荐最合适的产品,最合适的服务。第三是服务,金融实际上属于服务业,服务水平不高的话,用户来了也留不住。第四个是个性化,不同的用户,可以通过大数据分析,做到真正个性化的服务,提高用户的体验。
另外就是金融本身的业务,比如智能投研,通过人工智能技术,非常快速地分析一个市场或者一个领域,辅助相关部门快速的做出准确的投资、交易等等决策,甚至可以让机器来做一些量化交易。理赔是不是可以自动化,非常快速地从大量的资料里面找到相应的信息,自动完成表格的填写,相关材料的准备,自动生成一些分析报告等等,让员工能够更加轻松地服务更多的客户,这些都是肖京觉得人工智能一定会发挥作用的场景。
深圳平安国际金融中心
1998 年,肖京参加 ICPR 模式识别国际大会,和坐在旁边的一位来自日本松下的研究人员聊天。对方问“你是哪里人?”肖京回答“我是中国来的。”对方意外地表示“你们中国还有做模式识别的?”
现在再去看 ICPR,能看到很多中国人的身影,其他的重量级人工智能大会也是差不多情况。肖京感概道:“现在国家确实很重视人工智能,中国的人工智能技术水平在过去几十年发展非常快,也吸引了大量的人才进来。”
在他看来,中国的人工智能技术在国际上水平还是不错的,尤其是应用能力很强,不管是互联网还是人工智能,很多技术的应用,包括产品的设计,真正结合场景的实际落地,中国在国际上都很领先了。但是原创性还是美国、欧洲做的好一点。不过这方面中国也在很快的进步,所以他觉得现在对于技术人来说是个非常好的阶段。
平安科技也是在这样的大环境下迅速成长着。现在的平安科技是一个独立核算的公司,有员工近万人,基本上都是 985、211 等比较好的院校毕业的。它包括很多不同的业务方向的团队,比如语音团队,技术架构团队,运维团队,区块链团队等等。而肖京的团队负责大数据和人工智能,现有 500 人左右,90% 以上都是清华北大交大等名校的硕士或博士,哈佛,斯坦福等海外名校的毕业生也很多。
在 2017 年 8 月举行的年中报发布会上,中国平安集团总经理任汇川表示:“平安正在从资本趋动向‘资本+科技’双向趋动转型。平安集团董事长兼首席执行官马明哲更提出,希望十年之内科技服务的收入更高。”
与之相对应的是,平安科技正在成长为一个金融科技平台,不只服务于平安集团,还要服务更多的金融机构。近几年平安的技术输出越来越多,比如平安云、人脸识别身份认证、智能客服等等,已经在服务很多银行和金融机构。还有去年在第三届世界互联网大会亮相的实体客服机器人安博士,依托平安海量的数据积累和世界领先的智能引擎,集万物互联、大数据与人工智能于一身,具有迎宾分流、业务办理、咨询引导、智能推荐、关爱提醒、集中管控等强大功能,助力银行、保险、投资等业务公司打造新一代的高科技门店。
对于期望赶上人工智能这趟快车的企业,肖京给出了自己的建议。他表示,人工智能落地是个痛苦的过程,要对现有的系统,现有的流程做改造,这需要很多资源,很多资金,以及领导的支持,否则很难实现。中小企业选择跟成熟的企业合作是个不错的方式,成熟企业有一些经过实际验证的解决方案,可以让中小企业方便快捷地使用新技术,从而在快速变化的市场环境中先人一步。
点击下方图片即可阅读
大数据查询——HBase 读写设计与实践
机器学习已进入 2.0 时代,你 out 了吗?如何使用机器学习和 NLP 技术解决最基本的开发工作?BAT 联合推荐的人工智能落地方案又是什么呢?
2018 年 1 月 13-14 日,AICon 全球人工智能技术大会上,一些大牛将首次分享机器学习在金融、电商、教育、外卖、搜索推荐、人脸识别、自动驾驶、语音交互等领域的最新落地案例,更有会前两天深度培训让你从 0 到 1 系统掌握,应该能学到不少东西。目前大会 8 折报名倒计时进行中,更多精彩可点击 阅读原文 详细了解。