人工智能人物访谈篇之二
编者按:
《人工智能人物》是吴文俊人工智能科学技术奖原创科技自媒体公众号。旨在交流人工智能科技前沿趋势,对话人工智能领军人物思想,解读中国智能科学技术最高奖成长基因,搭建有态度的人工智能产业生态聚合平台。
《人工智能人物》首次推出访谈栏目,我们采访了第六届吴文俊人工智能科学技术奖创新奖一等奖获得者——第四范式创始人兼首席执行官戴文渊,以下为戴文渊的独家报道。
获奖人物介绍
戴文渊,男,汉族,1983年生,毕业于上海交通大学,ACM世界冠军,第四范式创始人兼首席执行官。2003-2004年,获得ACM-ICPC竞赛三届亚洲冠军(2003一次冠军,2004两次冠军);2005年,获ACM-ICPC全球总冠军;2005年,获上海交通大学校长奖;2006年,获中国青少年科技创新奖。2009-2013年就职于百度,2011年,获“最佳百度人”;2012年,获“百度最高奖”。2013-2014年任华为诺亚方舟实验室主任科学家时 ,获华为“President Award”。2015年,他和机器学习领域的顶尖科学家、工程师、咨询专家及行业专家一起,创立了通用人工智能平台型企业“第四范式”。2016年,凭借“基于迁移学习的下一代机器学习平台”项目成果,荣获第六届吴文俊人工智能科学技术奖创新奖一等奖。
从ACM夺冠到研究人工智能,从百度到华为再到自己创立第四范式,戴文渊用过去十几年的实践证明了,“AI”是可以“for someone”的;现在,戴文渊和他带领的第四范式正在证明,“AI”终将“for everyone”。
AI开始接管越来越多的“策略制定”工作
人工智能是被各行各业寄予厚望的未来技术,目前公众关注得最多的AI集中在感知层,例如人脸识别、语音识别、无人车等。但是,真正利用AI创造核心价值的公司,都是将AI技术用在了企业中后台的经营上,让机器自己能够自动进行精细化决策。
决策的AI化才能实实在在提升企业经营效率。企业内部的角色分成三种:高层做的是战略制定,中层的工作是策略制定,基层是策略执行。互联网和移动互联网改变的是基层的工作,越来越多的企业将策略的“执行”交给计算机。今天,人工智能改变的实质是,策略制定正在交给机器来做。
相比于过去依靠人来制定策略,机器制定策略的优势更为明显。例如,第四范式和瑞金医院合作的一个项目,是对未来三年糖尿病患病概率进行预测,机器制定出了50万条判断规则,而在此前,中、美两国的传统判断标准只有10-30条,这是数量级层面的巨大提升。此外在金融领域,过去业界认为最好的反欺诈模型是1000条规则,这是顶级专家能做到的极限,而国内领先的股份制商业银行基于第四范式的AI技术,可以找到超过25亿条规则。再比如,在内容分发领域,千人千面的个性化推荐应用开始备受推崇,那如何才能做到个性化内容推荐?实际上,只要当业务规律数超过人数,每个人都可以被不同规律覆盖,就能做到个性化了。
企业要解决的三个瓶颈问题
这几年,AI给企业、行业和产业创造的价值已在越来越多的落地项目中变得更为清晰。但是,AI目前的门槛太高,将很多有大量需求的场景挡在门外,没有真正参与到这场变革中来。AI的生产效率提不上去,戴文渊将原因总结为实企业AI落地要过认知、数据、算法三道门槛:
首先,AI落地的第一道门槛是认知门槛。谈到AI,我们首先要正视一个问题:深度学习不是普通人能理解的交互方式,业务人员所关心的业务也不是科学家擅长的。怎样将业务人员关注的风险管控业务和科技人员关注的深度神经网络技术结合到一起?这就需要把公众可认知的交互方式和科技结合起来,形成一个门槛比较低的人工智能构建过程,使算法与业务进行对接。第四范式把这样的AI构建的过程标准化了,借鉴教育学的“库伯学习圈理论”,总结成为四步标准动作,分别是“行动”、“反馈”、“反思”、“理论”。通过构建起闭环,形成机器学习的学习圈。AI应用应该像学习圈一样,将业务闭环与AI产生的过程融合到一起。
其次,在机器学习过程中,如果缺乏有效数据,效果就会受影响,这就涉及到第二个门槛——数据门槛。AI是基于大数据的,但很多企业有数据却不能产生AI,这是因为有大数据不等于就有AI。大数据分为两种:BI的大数据和AI的大数据。过去的大数据多数是为BI设计的,BI大数据主要是帮助人去总结一些经验;AI大数据是给机器看的数据,主要是完整和实效性高。因此,两个大数据系统的设计理念天然不同。我们经常会看到企业由于过去建设了面向BI的大数据系统,又将AI建设在这个大数据系统之上,非但没有帮到AI的落地,反倒成为AI落地的障碍。正是因为传统的BI大数据系统限制了AI的发展,第四范式自主研发一套面向AI的大数据系统:收集行为数据,收集反馈数据,让机器自主学习。
最后,是关于算法的门槛,未来的AI,不应该依赖科学家来调参,而是让算法做到不需要科学家,让机器去学习。这也是破解AI落地算法门槛的关键。让机器自动建模、自动调参,这在机器学习领域称为Auto ML。第四范式从3年前开始发展不需要调参的Auto ML, 能够让用户在没有机器学习研究背景的情况下开发机器学习模型、或是缩短数据科学家用来创建模型的时间和精力投入。第四范式作为世界上最早开始研究Auto ML的团队,也是世界领先的团队,今年,第四范式也在与诸多国际巨头的竞争中,取得了国际最具影响力的神经网络会议NIPS中的Auto ML大赛的承办权,成为国际Auto ML的领导者。
“先知”登场
为了解决AI落地的三大门槛问题,第四范式自主研发了“第四范式先知”的平台。正是凭借“先知”平台的领先性,戴文渊获得了第六届吴文俊人工智能科学技术奖创新奖一等奖,打破了该奖历年只授予顶尖高校、重点实验室和科研机构的传统。“先知”系统的核心出发点是降低人工智能应用的开发难度,并为企业开发AI应用提供支撑,从而实现人工智能在各行各业的广泛应用。
“先知”的设计,来源于学习圈理论。学习圈是大卫·库伯提出的经验学习模型理论,其认为人类学习的过程是由“行动——经验——反思——理论”这四个阶段构成,即通过行动产生经验,再通过反思将经验总结为理论,指导新的行为。戴文渊将人类的“学习圈”类比到机器学习领域,机器决策是由过程数据(行动)、反馈数据(经验)、机器学习(反思)、产出模型(理论)构成的“机器决策闭环”。换而言之,就是建立机器对复杂事情的判断能力和场景决策能力,模拟人的思维过程,训练机器能像人一样作出决策规划、产生策略。
当前,第四范式先知平台按照机器的学习圈理论,构建数据、算法和生产三大核心,给企业客户提供包括行为数据、反馈数据、模型训练和模型应用在内的全流程应用。客户点击进去进行简单操作,就可以得到想要的应用服务,打造出完整的基于AI技术的全流程决策系统。同时,第四范式提供开发工具,让合作伙伴在各自行业内开发应用,应用开发出来后,通过相关载体,企业拿去安装即可,合作伙伴不需要派人到每家企业部署实施。
按照戴文渊的设想,随着“先知”平台的发展,AI门槛将会进一步降低。未来,只需要把企业的业务目标告诉机器,机器就可以从企业数据仓库中创造出业务价值。
获奖项目成果及进展
迁移学习(Transfer Learning)与过去的机器学习方式相比,可将从一个环境中学到的知识用来帮助新环境中的学习任务,从而更接近人类学习的行为。迁移学习近年来受到机器学习领域的广泛关注,正逐步成为人工智能和机器学习研究领域的主流方向之一。
本成果在迁移学习理论方面做出了世界领先的成绩:(1) 完成了迁移学习的基本理论与算法研究;(2) 提出了全球首个非监督迁移学习算法;(3) 世界范围内首次提出通用迁移学习框架。本成果的特点还在于理论研究与产业应用的深度结合。戴文渊将迁移学习技术应用于百度凤巢在线营销系统、百度大脑等多个重量级核心产品,大幅提升了业绩,由此成为百度最年轻的T10科学家。
此后,戴文渊帮助华为建立起迁移学习的人工智能能力,完成了迁移学习在运营商领域的第一次落地。2015年,戴文渊创立了第四范式公司,其主导研发了基于迁移学习的下一代机器学习平台—“第四范式.先知”,该平台致力于将以迁移学习为核心的人工智能技术,以产品化、平台化的方式呈现,惠及更多企业。基于本成果在产业界的应用,戴文渊共主导或参与了17件发明专利申请、1件实用新型专利申请和8件软件著作权登记。
戴文渊:作为AI技术的坚定信仰者与早期实践者,第四范式一直致力于降低AI应用门槛,希望AI能普惠大众、赋能百业。“AI For Everyone”的企业愿景要求第四范式走的不是一条颠覆式创新的路,而是要帮助各行各业的合作伙伴、成为各自领域最好的AI公司,与大家共建AI时代。