5月25日-26日,由中国人工智能学会主办,南京市麒麟科技创新园管理委员会与京东云共同承办的2019全球人工智能技术大会(2019 GAITC)在南京紫金山庄成功举行。
在第二天的产业智能化发展论坛上,北京国双科技有限公司CTO刘激扬发表了主题为《领域知识与深度学习相结合构建实用级产业智能应用》的精彩演讲。
刘激扬
北京国双科技有限公司CTO
以下是刘激扬的演讲实录:
国双是一家技术公司,业务领域比较广泛,有数字营销、司法、工业互联网等,在产业领域做了很多的工作。在所有的这些领域里,我们的工作都用大数据和产业智能作为主要的技术驱动力,来为客户提供服务。今天我想和大家分享的,在深度学习领域里面的最佳实践,是如何利用知识去增强深度学习在产业领域、在现实世界里解决真正有价值的业务问题的能力。
深度学习在过去几年里产生了巨大的影响力,不管是在学术界还是在产业界, 2019 年几位深度学习的创建人、创始人,他们获得了图灵奖;过去几年里,大家也听到深度学习在围棋、图像识别、语音识别、机器翻译等领域里都取得了辉煌的成绩,在很多方面超过了人类的能力和表现。但是会注意到,不管是围棋、象棋,还是图像识别、机器翻译、语音识别这一类的问题,很多都是感知类的问题,这些问题有共同的特征,这些特征包括用来做决策判断的,解决这些问题的数据和信息,是可以完备的获取到的。这些问题本身也都有标准答案,到底这张图片是一只猫,还是一只狗,机器翻译给一段中文翻译成英文是对是错,这些都有标准的答案,都是可以预先确定的,因此结果都是可以预先确定的。同时在这些问题里,可以获取大量的数据样本,试错机会重组,标注成本低,可以不断地让人和机器下棋,可以建立一个深度学习的模型,成千上万甚至上亿的图片让它去识别,把算法做到最佳的效果,是这一类问题的特点。像类似这样的问题,在产业、工业及现实世界里,为数不多,虽然这些领域无论对我们的工作、生活都可以起到很大的作用,但是要解决产业界、工业界的现实问题,会遇到另外一类情景。在这些问题里可以看到,信息多元、多样化、样本很多时候非常少,获取的代价非常高。过去的一段时间我们和一家著名的油气领域的公司合作,解决油气勘探、开采的问题。通常取样需要到地下几十公里深去采集数据,这样采集数据的成本非常高,如果这时去试错,成本就更高了。而且这些问题的思路和答案是没有标准的,可能只有好的解决方法、好的答案和更好的答案,没有最好的答案,或者是最佳的答案,这是我们面对的难题和挑战。在这些问题前面,深度学习是不够的,现在很少听到谁做了深度学习的多少层网络,就解决了油气开采的问题,尤其勘探的问题;或者是可以自动判断一段文章它表达的情感、情绪是什么样的;或者研发出了一个人工智能的法官,可以自动地根据我的输入,做出合理合法公正的判决。这些问题不容易解决,不容易用一个深度学习的模型去解决。可是我们也希望能够利用深度学习的能力,去试图解决这些问题。过去几年里,国双在这些领域里多多少少取得了一些成绩,我会用一些案例和大家分享我们是怎么做的。
今天的主题是用知识和深度学习解决现实世界的问题,提出一系列的方法和实现实施的框架。我们总结出来的第一条经验,就是把知识,特别是行业的知识、行业的经验、领域的知识,以及深度学习的模型,当然还有很多其他的资源,把它认为是在产业领域里,去解决问题的不同的资源(见下图)。可以看到在面对任何一个问题时,可能有不同的方法,用不同的资源,去解决这样的问题。比较简单的问题可以用知识去解决,比如要计算牛顿力学的问题,运用公式就可以了,这些知识已经成为了理论进行使用;还有一些问题,像刚才讲的下棋、图像识别等,完全可以用深度学习,只要有大量的数据、高质量的数据,可以不断地试错,不断地优化你的算法。还有大量的问题是需要用知识和学习一起解决,形成解决方案的。所以解决产业领域问题的模式分成几个步骤。第一步是分解这个问题,看看这个问题应该有些什么样的环节,把问题分解好了以后,在各个环节搭建方案,有的地方需要用知识,有的地方需要用深度学习,有的地方需要把这两个资源甚至其他的资源组合起来,形成好的解决方案。有了模型解决方案以后,再投入到生产中尝试、预测、验证,然后得到新的数据,这些数据又会反馈回到这个系统中,既丰富了知识,又提升了解决问题的准确度,或者是它的性能。所以我们的解决方案是一个闭环,在这个闭环里把知识和深度学习,以及其他的解决问题的资源充分融合在一起,形成最佳的解决方案。
在这个过程里,有几件事情非常重要。第一件事情刚才提到的知识,人都是通过学习不断的积累知识,对于计算机来讲,它有很多方法去获取知识,如果要让 AI 具备知识,首先要做的就是怎么让它获取知识,这是我们提出这个框架基础的能力。
过去在知识获取里,做了很多的尝试,总结的办法是通过文本抽提,以及专业知识专家的协助,让计算机,让 AI 系统迅速地获取知识。第二个方法如何让各种不同的资源整合在一起,让机器自动地去构建最适合这个问题的解决方案。有了它们以后,就可以形成面向不同行业、不同产业的应用问题解决方案,在不同的场景里让我们的技术和知识发挥作用。下图展示出了国双利用大数据和人工智能为企业客户提供服务完整的技术栈,可以从数据、从信息到最后为一个企业、为一个客户提供有效的解决方案。其中最重要的几个环节就是刚才讲到的,知识的提取、抽取、获取,有效地利用所有的在你掌控之中的资源,人机配合有效地解决问题。问题解决完了以后,再通过这个回路不断地去丰富机器的知识,以及我们的算法模型。
怎么利用自然语言的能力文本解析,以及专家的经验和行业的知识迅速在文本里抽取知识,形成知识库和知识图谱?大家都知道要构建一个知识图谱,首先需要在这个领域里定义好的本体;有了本体以后,需要去提取它的实体,以及实体与实体之间的关系。所有的这些工作在过去的经验里,我们发现,如果你把机器的能力、自然语言处理能力和机器学习的能力,与行业专家的知识、经验,以及他们知识体系和架构结合在一起,就可以迅速和有效地完成这一工作。比如,在司法领域要用AI 帮助法官判案,都是这个系统需要解决的问题。对于司法领域的 AI,有一类数据非常重要,就是裁判文书。现在每一个案子在法官宣判以后会留下一个文档,这个文档最高人民法院都要公布到国家的裁判文书网上,大家可以对每一个案子进行搜索。一个案子对我们来讲,在这个系统里就是一个实体,要充分了解这个案件的实体就需要对它里面的元素和法律上的要素进行解读,让机器自动地进行解读。这时就可以用自然语言处理能力、通用知识,以及具有司法领域特征的知识和司法专家的行业知识,抽取案件里的相关要素,搭建针对裁判文书所设计的文本解析工具,迅速地分析。这样才能够处理几千万个文档,否则需要很多人做很多年的工作,这样的系统是没有实际意义的。
还有另一类问题也是非常重要的,就是强化学习,这个关系我们也研发了,也用深度学习、机器学习结合知识,结合领域的知识,搭建了一个端到端的实体和关系的抽取系统。在这些方面公司不仅是利用这些技术的积累搭建我们的工程系统,同时我们也在努力地撰写一些学术文章。有了这些能力以后就可以让计算机高速、高效地提取文本文档中的知识,形成知识库和知识图谱。有了知识和机器学习的模型、算法,以及在行业里的一些专业知识,产业里的机理模型、统计模型、统计数据和一些决策的工具,如何把这些资源有效地使用和组织起来,解决一些问题。这里简单介绍一下我们在司法领域里,如何构建一个智能的 AI 法官和判案工具的方式。首先在解决判案的问题里有多个任务,包括罪名的预测、法则的预测、刑期的预测,要把所有的任务都用知识和机器学习解决,同时也融合多个机器学习的模型,组成一个组合的系统,帮助我们针对问题的具体特征来灵活的使用。用多元的特征对提出的任务搭建相应的解决方案。知识图谱里包含了用来解决现实产业中的复杂问题,以及需要用到的所有资源的有效组合、存储和应用方式。
下一步就是要利用这些资源建模。建模也是需要人、专家、数据科学家,以及计算机、AI 相互合作,搭建一个自动的模型建设和优化的系统。当遇到了一个新问题时,首先要做的是定义这个问题。比如,这个问题有什么样的数据,怎么描述这些问题,这个问题的解决需要达到什么目的、什么目标。如果是情感判断,我们拿到一句话以后要告诉你这是正面、负面,这是目标;法官判案,输入案件信息要告诉我是什么罪名、什么罪刑,需要判多少年;油气勘探里要知道油在哪儿,这口井还有没有潜力。当有了这些问题的回答以后就可以通过 AI 系统,根据经验和这个领域的知识、以前解决的问题自动推荐一些模型、算法和资源,这时数据科学家或者业务专家也可以根据社会的推荐优化这些模型,最后用一个自动优化模型,把刚才这个过程里生成的模型,根据现实领域看到的数据去做尝试和验证,形成最后的解决方案,这就是人机结合自动建模的模式。
刚才我介绍了在国双怎样把知识和深度学习、机器学习,以及这些领域的积累,用到构建产业问题智能解决方案的一些重要思路、方法论和元素。接下来通过这三个领域的应用,介绍一下我们在把知识、知识学习和人工智能相结合的过程里几种不同的使用方式——从简单到复杂,从单一到多元。首先介绍的是如何利用行业知识、专业知识帮助机器学习找到它要学习的对象。例如,在我们数字营销里帮助一些汽车企业,或者是快销企业、消费品服务企业去做他们的产品。企业的声誉或者是危机的监测与分析,主要看社交媒体上的文章,或者电商平台上用户的反馈,对这些文本进行分析,同时做出细粒度的情感判断。比如餐馆性价比好不好;这辆车的外观是不是好看,它的发动机是不是有力量,这样的结果是我们的目标。这里主要是利用知识,利用专家的知识帮助我们告诉机器学习系统看哪些信息,我们给这个机器学习搭建了标签数,这里举的是汽车行业的例子,可以理解成是根据汽车行业对于产品和用户、业务总结出来的本体上面对实体具体的描述。如对汽车安全装备的描述,这时的机器学习就知道在文本里去捕捉哪些内容,进行怎样的学习,利用专家知识构建知识体系、标签体系,帮助深度学习建模,得到解决问题、细粒度情感分析的网络。
我们把这个方法和里面用到的深度学习的模型,用到了很多不同产业,刚才我介绍了汽车行业,还有快销行业、餐饮行业等,在这些领域里都可以迅速搭建一个根据这个行业的文本,可以对它们进行有效的细粒度的情感分析。可以看到利用深度学习加知识模型的解决方法,不管是在准确率——正面的准确率还是负面的准确率,都可以得到比较简单的规则,或者是传统单纯的深度学习系统,会有大幅度提升。而且可以迅速地把这个解决方案,从一个行业应用到另一个行业。
另一类的知识和机器学习、深度学习的结合,把它叫做知识嵌入模型,基于场景从知识库获取先验知识,通过编码嵌入模型提升效果。如何构建,刚才已经简单介绍了在司法领域的应用。我们经常看到的问题就是基于什么案情,他触犯了哪些法律法规,做出什么判决,判刑多少年,赔偿多少钱,是否可以缓刑,这里的输入是裁判文书、法律文书,以及法律法规,这个系统模型或者是判案系统要做的事情就是在这些文本文书里抽取每一个案子的要素,基于司法行业的知识,构建深度学习的解决方案。我们模型里用到了知识,针对盗窃罪的要素,根据对盗窃罪法律法规的理解,形成了知识图谱,定义了盗窃罪的要素,包括定义罪的要素、量刑的要素,最后将模型和知识有效结合,回答这些问题,回答有没有罪,犯了什么罪,应该怎么惩罚,道歉金额是多少,有没有自首,这些特征都可以嵌入到这些系统里。同时还会有一些统计数据,模型把全国范围内网上的几千万法律文书都已经学会和理解了,所以我们掌握了所有的判决信息。如果这是一个盗窃罪,可以知道这个盗窃罪它的判决统计数据,在全国各地不同的法院、不同的法官根据类似的案情是做出什么样的判决,这样的信息都在系统里,做出了像一个真正的法官一样去做判决的系统。目前,在全国各地的法院都安装了我们的系统。法律文书的解析、智能文书生成、定罪量刑辅助、智讼辅助办案、智讼微诉平台,包括可以在异地打官司,利用高科技,利用技术进行改革,改变传统做业务的方式,我们的覆盖率和效率很高,处理的速度也很快,同时准确率也相当高,2018 年的首届中国“法研杯”司法人工智能挑战赛,我们也组队参加了比赛,获得第一名。
最后我想给大家介绍的是知识融合型的模型,是用知识和机器学习高度融合的方式,解决非常复杂困难的问题——在油气领域和石油勘探领域帮助石油公司判断在哪儿有油这样一个问题,这是一个非常重要的问题。不仅在五十年代这个问题非常重要,今天这个问题同样非常重要。油气层在什么地方?这个油气层可能含多少油?已经开采的油田或者油井,还有没有潜力可挖?这是一个复杂的业务问题,需要很多的专业知识,如地质知识、油气知识、地理知识等,所以解决问题的过程也非常复杂。我们总结并高度概括的框架有 10 个步骤,其中认为最核心的步骤是路谱,从预处理的数据以后去抽取模型、建立模型,然后解释这个模型。这就是工程师和科学家,他们埋头苦干做的工作,同时要走完这样一个过程,需要几个月到几年的时间,所以这个问题才这么重要、这么困难。现在希望计算机、人工智能、大数据和数据科学帮助大庆油田解决这个问题。我们把专家的知识、行业的知识运用到解决问题的框架中,把这些知识融汇到搭建的智能系统里。我们会做一些创新和改良。以前需要人手工采集数据,现在不用。现在除了人采集数据以外,还可以通过传感器自动地去实时采集数据。现在数据量大了,也准确了,更完备了。即使是第一步也需要技术来帮助处理更大量、更准确、更实时的数据,有了这些数据以后,就可以用人工智能的系统模型来做特征分析、建模和验证这个模型是否有效。这个过程的周期比以前大大缩短,现在可以在很短的时间内做完一个模型。这个系统现在也投入了现场使用。
回顾一下,如果仅用深度学习,不管什么样的模型,以及它的网络多深、多厚(且不说这里面不太可能有大量的数据、大量的样本),上述问题没有办法得到解决;传统的做法,完全靠人,完全靠知识,也不能解决这些问题,因为它不能利用计算机的优势,以及 AI 的特征、特点、能力。
所以最佳的实践、最佳的解决方案,就是把行业的知识、领域的知识、经验、专家,与人工智能的机器学习、深度学习,以及有关领域的知识能力高度结合,根据应用场景、不同的需要,灵活地把这两类资源有效整合起来解决问题。在石油勘探领域我们的系统在发现新的油气层,以及对现存的油田潜力挖掘都有非常有效的应用,可以做到更全面、更快速,以及更准确。
总之,要在产业里面充分发挥智能的作用,需要把数据、算法,以及知识进行高度融合、高度的结合;同时如果要对产业赋能,还需要有平台、工具和流程的自动化,这样才能够把我们的解决方案和我们的能力做到规模化。这个规模化不仅是在一个行业里可以做深,而且可以把同样的方法论,以及解决方案、方式推广到不同的行业中,在这两点上国双在过去几年都有很多体会,为什么一家千人的公司可以做这么多的事情?就是因为我们有一个共享的技术栈,它下面都是这些大数据和人工智能的组件技术,可能不一样的地方就是在相应的服务领域里都引进了行业专家——在数字营销领域工作多年的技术专家,在司法领域聘请了多位法官、律师和我们一起工作,在油气领域邀请了油气行业里从业几十年到十几年的行业专家;同时公司还在努力地搭建完善我们的产业智能平台,为各行各业赋能。
最后我想说一句,我们有一个理念,就是希望利用这些能力为各行各业赋能。每个行业、每个企业都会生产一个产品或者提供一个服务,这个过程也有一个价值链,在这个价值链里有很多环节,不管是设计产品、定义产品,还是生产这个产品、营销这个产品,国双具有的大数据和人工智能的能力都可以为这些产品和企业提供相应的解决方案。
(本报告根据速记整理)
CAAI原创 丨 作者刘激扬
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会