【知识图谱】肖仰华：基于知识图谱的可解释人工智能：机遇与挑战

2017 年 11 月 2 日 产业智能官 知识工场

本文整理自2017年10月13日肖仰华教授在 CIIS2017 中国智能产业高峰论坛上所做的报告，报告的题目为《基于知识图谱的可解释人工智能：机遇与挑战》。

肖仰华：很高兴有机会跟大家一起分享《基于知识图谱的可解释人工智能：机遇与挑战》。

刚才刘总的报告中提到了机器和人类将来要互相拥抱，互相拥抱的前提是互信，机器要相信我们，我们要相信机器。这个相信指的是，比如机器给我们做一个决策案或者治疗方案，我们能够相信机器给出的结果。当前，机器显然还不能给出合理的解释， AI系统作出的决策仍然缺乏可解释性。正因为可解释性的缺乏，导致人类对机器产生的结果无法采信。可以设想一下，如果我们都不相信机器的行为和决策，那么机器为人类生活提供的服务将大打折扣。所以需要增强人工智能的可信性和可解释性。

AI的可解释性问题要从深度学习谈起。这几年我们见证了深度学习的一系列突破。深度学习的进展本质上是由大数据喂养出来的。大数据时代，海量高质量的带标注数据，使深度学习模型可以学习到非常有效的层次化特征表示，从而使得深度学习成为可能。以云计算为代表的大规模分布式计算平台以及GPU、FPGA等硬件能力的提升为深度学习提供了必要的计算基础设施。大数据喂养下的深度学习取得了显著进展，机器在图像、语音识别等感知能力方面甚至超越人类。在深度学习的推动下，自然语言处理方面也取得了显著进展。

然而，深度学习的一个广为诟病的问题是其不透明性，不可解释性。深度学习模型是一种端到端的学习，接受大样本作为训练输入，所习得的模型本质上是神经网络结构的参数。其预测过程，是相应参数下的计算过程，比如说输入一张狗的图片，机器做出是否是狗的判断。深度学习的学习和预测过程是不透明的，模型究竟学到了什么有效特征，使得它做出这样一个判断，这个过程缺乏可解释性。深度学习的不透明性问题，有时又被称为深度学习的黑盒（“Black box”）问题，最近受到了广泛关注。《Nature》、《Science》以及《MIT Technology Review》最近都有文章讨论这一问题，都指出深度学习的发展需要打开这个黑盒。乔治亚理工的Mark Riedl认为如果AI系统不能回答Why问题，解释这些系统何以产生特定的结果，这些AI系统就只能束之高阁。

深度学习的黑盒问题吸引了各界人士广泛的研究兴趣，学术界与工业界都在努力打开深度学习或者AI系统的黑盒子。这些工作都可以被视作是可解释人工智能的研究范畴，也就是Explainable AI或者简称为XAI。XAI吸引了很多学术团体和政府的关注，最有代表性的就是David Gunning所领导的美国军方DAPRA可解释AI项目，他们旨在建设一套全新的且具有更好可解释性、以及更易为人所理解的机器学习模型。比如在猫的识别任务中，新模型不仅仅告诉你这是一只猫，而且还告诉你模型是因为观察到了猫所特有的爪子和耳朵等做出这是猫的判断。

XAI在我看来，不单单是对于解决深度学习可解释性问题具有重要意义，它将在整个AI里都扮演着非常重要的角色。因为，我个人认为理解和解释将来会是整个后深度学习时代人工智能最为核心的使命。在深度学习时代，我们的模型某种程度上只“知其然”而不知其“所以然”。这就好比中医看病，根据以往的经验做诊断。当然，无论是现代中医还是传统中医也都在寻求理论解释，但是仍然很难全面达到西医的解释水平。很显然，我们不可能对只知其然而不知其所以然的AI系统完全采信。所以AI势必要从只“知其然”走向“知其所以然”。我们希望XAI能够解释过程，也能够解释结果。只有能够解释过程和结果，才能使人类信任它。还有很多机器学习模型，我们知道任何模型都不可能100%准确，一定会产生错误，对于产生这些特定错误的原因，我们也在寻求解释。更重要的是，未来我们的AI医生所做的任何治疗方案，都必须配备解释，否则人类不可能为它的诊断买单。在电商以及更多商业场景下，可解释的推荐显得尤为重要，我们相信，将来如果电商不只是给用户推荐一个商品，而且还能告诉用户为什么推荐这个商品，这样的推荐更有说服力。比如说用户去订酒店的时候，可以告诉用户推荐这个酒店的理由，或是离用户会场较近，或是价格便宜。再比如说用户搜索“二段奶粉”，平台可以告诉用户喝此段奶粉的婴儿每天需要饮用多少水，用多大容量的水杯保证每天用水量，从而推荐水杯给用户，如果平台做到有解释的推荐，相信销量肯定会大有提升。

可解释人工智能非常重要，很多人都在尝试解决这一问题，不同的学术团体根据各自的特长在做相应的努力。比如最近刚过学者提出Information Bottleneck的理论，这实质上是信息论的学者，尝试从信息论角度解决这个问题。我本人是从事知识库和知识图谱研究的，所以我的出发点是阐述从知识图谱的角度看XAI有什么机会。我的基本观点是，知识图谱为XAI带来重大机遇。首先要了解知识图谱是什么？刚才也有学者提过，知识图谱是一种语义网络，包含大量实体和概念及其之间的语义关系。相对于传统的知识表示，知识图谱具有海量规模、语义丰富、结构友好、质量精良等优点。知识图谱的这些优点使其成为机器理解语言的重要的背景知识，使机器语言认知成为可能。当前，自然语言“理解”仍是个很遥远的目标，现在只能谈得上是处理。为什么谈不上理解，就是因为没有背景知识。正是在知识图谱的支撑下，机器才能理解搜索关键字，从而实现从搜索直接通往答案，我们才能做到大数据的精准分析，未来我们才可能实现机器智脑。

知识图谱对于XAI的重要作用可以套用Edward Feigenbaum的一句话名言来阐述。图灵奖获得者，知识工程创始人Edward Feigenbaum有个观念：“Knowledge is the power in AI system”。我认为Knowledge is thepower in XAI system。知识图谱中所富含的实体、概念、属性、关系等信息，使解释成为可能。比如C罗是一个实体，运动员是他的一个概念，他曾经获得“金球奖”这个奖项，这就是知识图谱的基本构成。为什么知识图谱对可解释AI有帮助？我们先来看一下人是怎么解释的。对于问题，“鲨鱼为什么那么可怕”？人类给出的解释可能是“鲨鱼是食肉动物”，这实质是用概念在解释。而“为什么鸟儿会飞翔？” 人类的解释则可能是“鸟儿有翅膀”，这实质上使用属性在解释。还有最近的热门问题，“为什么鹿晗和关晓彤刷屏了”，因为“关晓彤是鹿晗女朋友”，大家都知道是因为他们公开了恋爱关系，引得鹿晗粉丝一片哗然。这里的解释实质上是用关系在解释。我们或许会进一步追问，为什么人类倾向于用概念、关系和属性做解释？这是因为任何解释都是在认知基本框架下进行的。人类认识世界理解事物的过程，其实就是在用概念、属性和关系去认知世界的过程。概念、属性、关系是理解和认知的基石。

基于上面的认识，我们开始利用知识图谱进行解释的一些探索性研究工作。首先简单介绍一下我们即将用到的两类知识图谱。

一是Probase和Probase+。Probase是一个大规模isA知识库，是从大规模web语料中通过pattern抽取得到的。比如针对“Domestic animals such as cats and dogs”，通过such as模式，可以抽取出Cat is a domesticanimal以及Dog is a domesticanimal这样的isA知识。Probase+是在Probase基础之上，通过补全和纠错，进而得到了一个更大规模的isA知识库。

第二我们将用到的知识库是DBpedia和CN-DBpedia。它们都是关于实体的结构化知识库，比如<复旦大学，位于,上海市杨浦区>这样的三元组事实。CN-DBpedia是DBpedia的中文版本，是由我所在的复旦大学知识工场实验室研发并且维护的。后续我将介绍的解释研究，主要就是基于这两类知识库。

先介绍如何利用Probase／Probase+让机器理解和解释概念。在互联网上有很多新概念（Concept）、新品类（Category）。通常机器仍难以理解或解释这些概念或者类别。比如对于Bachelor（单身汉）这个概念，我们人是怎么解释的呢？我们可能会用一组属性来解释，比如{未婚、男性}。

我们在这个任务中的基本目标就是为每个概念和类别自动产生这样的属性解释。利用DBpedia这样的知识库，为每个概念或类别自动生成一组属性加以解释。最终我们为DBpedia中的6万多个概念自动生成了它们的属性解释。

我们紧接着看看如何利用知识图谱让机器理解一组实体，并进而做出推荐。如果我跟你说百度和阿里，你自然会想到腾讯，因为它们俗称BAT，都是中国的互联网巨头，都是IT大公司。假如我们先在亚马逊上搜索iphone8，紧接着搜索三星S8，那么亚马逊应该给我推荐什么呢？最好是推荐华为P10一类的手机。因为根据用户的搜索，我们能够推断出用户大致是在搜索高端智能手机，如果平台推荐一些中低端廉价手机，用户可能就会不满意。

这种推荐是建立在实体理解基础上，我们希望用概念去解释实体，从而准确把握用户搜索意图。通过显式地给出概念，系统可以展示对于搜索实体的理解。比如说搜索阿里和腾讯，系统不仅推荐百度，还可以给出因为它们都是互联网巨头这样的解释。我们利用Probase知识库提供背景知识，提出了一个基于相对熵的模型来产生概念解释以及寻找最佳推荐实体。

接下来介绍如何利用知识库让机器解释词袋（Bag of words）。在进行文本处理，特别是主题模型时，我们经常碰到词袋。一个主题往往表达为一组词，我们经常困惑于不知道这组词说明了什么。在社交媒体上也大量存在各类词袋，比如Flickr上图片的tag，微博用户的标签等等都是词袋。我们通过一个真实的例子来说明让机器解释词袋的任务，比如一个图片的标签是“新郎”、“新娘”、“婚纱”、“庆典”这些词，很显然我们人对于这组标签的理解是婚礼，我们希望机器也能自动为这组词产生“婚礼”这样的解释。

这里忽略方法细节。我们利用Probase等知识库，提出了一个基于最小描述长度的模型，来为输入词袋产生一组易于理解的概念标签，用以解释这个词袋。

最后一个任务是解释维基百科中的链接实体。我们知道百科数据很重要，百科中每个词条的解释文本中会提及大量相关实体，这些实体通过超链接连接到相应词条。我们的基本任务是能否解释每个百科实体与其链接实体之间的关系。比如在有关SQL的词条中，往往会提到E. F. Codd。事实上E.F.Codd是关系数据库理论的奠基人，是SQL发明的关键人物。我们能否产生一个解释来说明为何E. F. Codd出现在SQL的链接实体中？

我们将这个问题建模成可解释的聚类问题，我们先将所有链接实体聚类，并自动生成一个概念标签解释每个类，从而解释为何一个链接实体出现在某个特定实体的描述页面中。

虽然我们在基于知识图谱的可解释人工智能方面开展了初步研究，但仍然面临巨大挑战。总体来说，可解释人工智能的路还非常遥远，具体要面临哪些挑战呢？我认为有这几个挑战：一是对于解释和理解的认知仍然很匮乏。我们如果想把解释和理解的能力赋予机器，我们首先要反思自身，理解人是怎么解释现象，人是如何理解世界的。但是，我们在哲学、心理学、认知科学等层面，对于人类的理解和解释的认知十分有限，尤其是对于日常生活中的理解和解释机制更为有限。当前哲学领域理解和解释的研究主要还是聚焦在科学研究过程中的理解和解释，而人类日常生活的理解和解释对于人工智能技术而言则具有更重要的参考意义，对于服务机器人融入人类的生活具有重要意义。但遗憾的是，我们对日常生活中的理解与解释仍知之甚少。

第二个挑战就是，大规模常识的获取及其在XAI中的应用。常识就是大家都知道的知识，比如说人会走、鱼会游等等。我们的解释通常会用到一些常识，当问题涉及到常识的时候，这个问题的解释就会变得非常困难。因为目前对机器而言，常识仍然十分缺乏。常识缺乏的根本原因在于我们很少会提及常识。正因为大家都知道常识，故而没必要提及，以至于语料中也不会显式提及常识。这样一来，所有基于文本抽取的方法就会失效。常识获取仍是当前知识库构建的瓶颈问题。但是常识获取也不是真的一点办法也没有，在大数据的某些角落里，还是会提及常识的。总体而言，常识的获取以及在XAI里怎么用是有很大难度的。

XAI的第三个挑战是数据驱动与知识引导深度融合的新型机器学习模型，或者说是如何将符号化知识有机融入基于数据的统计学习模型中。这不仅是XAI的核心问题，也是当前整个人工智能研究的重大问题之一。要想对于机器学习，特别是深度学习的过程，进行显式解释，我们需要将符号化知识植入到数值化表示的神经网络中去，用符号化知识解释习得深度神经网络的中间表示与最终结果。符号化知识与深度学习模型的有机融合是降低深度学习模型的样本依赖，突破深度学习模型效果的天花板的关键所在。目前这一问题虽然受到了普遍关注，但仍然缺乏有效手段。

总结一下，在这次报告中我想表达的观点包括：一、以深度学习为代表的大数据人工智能获得巨大进展。二、深度学习的不透明性、不可解释性已经成为制约其发展的巨大障碍。三、理解与解释是后深度学习时代AI的核心任务。四、知识图谱为可解释人工智能提供全新机遇。五、“解释”难以定义，常识获取与应用，深度学习和符号主义的融合对XAI提出巨大挑战。

最后把亚里士多德的一句名言“Knowing yourself is the beginning of all wisdom”送给大家。研究可解释人工智能的前提是梳理清晰人类自身的认知机制。认清我们自己，才能将人类的能力赋予机器。我相信重新审视人类自我将是在未来人工智能研究过程中经常遇到的情形。

谢谢大家！

肖仰华：知识图谱研究的回顾与展望

来源：知识工场

本文整理自2017年10月19日肖仰华教授在知识图谱前沿技术课程（华东师范大学站）所做的报告，报告的题目为《知识图谱研究的回顾与展望》。

大家好，很多人在对知识图谱的研究或者落地方面都表现出了极大的兴趣，我从知识图谱综述的角度给今天的研讨会开个头。

我们先从知识图谱的概念和定义讲起。知识图谱本质上是一种大规模语义网络，它包含了各种各样的实体，概念以及语义关系。比如说C罗，他是一个实体，人物和运动员是他的基本概念，“金球奖”也是一个实体，它是一个奖项，那么C罗和金球奖之间的关系就是C罗曾经获得这个奖项。所谓知识图谱就是这样一个语义网络。

知识图谱为什么这么重要？可以从两个方面来讲，首先从它的学科体系来看，如果把知识图谱置于整个人工智能的学科框架里面来看，它有着非常清晰的学科定位。在人工智能这个非常庞大的学科体系里，知识图谱有着非常清晰的学科路径，人工智能的基本目标是希望机器能像人一样理性地思考或者行为。知识工程是人工智能学科体系的一个分支，它从上世纪五六十年代开始，到七八十年代达到顶峰，Feigenbaum是知识工程的鼻祖，做了一系列开创性的工作，在很多领域，尤其是医疗、诊断领域取得了突破性的进展。知识工程的目的是让知识能够融入到计算机系统中，使得计算机系统一定程度上可以像专家一样，利用专家的知识去做诊断和治疗等。在整个知识工程的分支下，知识表示是一个非常重要的任务，我们想要把知识应用到计算机系统中去，首先要解决知识是怎么表示的，尤其在计算机系统中是怎么表示的。大家都知道，计算机想要处理问题，首先要把逻辑表示出来，要有适当的数据结构来表达这个数据，机器才有可能去处理这个数据，所以知识表示是最关键的问题。知识工程的发展离不开知识表示，先要有知识表示，才可能有知识工程的巨大发展，所以在知识工程的体系下，一个很重要的分支是如何去表示知识。而在知识表示下有个很重要的方式，就是知识图谱。知识图谱本质上只是一种知识表示的方式，它侧重在用一种关联方式来表达实体与概念之间的语义关系。这样一来大家就能看到知识图谱在整个人工智能体系下是有很清晰的脉络的。需要强调的是，知识图谱只是知识表示的一种，并不是全部。事实上，现在整个国际学术界也一直希望能够提出有更强表达能力，更小计算复杂性的知识表示方式，很多团体都在做这方面的努力。

我们再从时间维度来看知识图谱，人工智能发展到今天，进入了大数据人工智能时代，由于大数据的出现，计算能力的升级，造就了一批新型的人工智能技术，尤其以深度学习和知识图谱为代表。从技术层次来看，狭义上讲，知识图谱本质上就是一种语义网络，是大数据时代知识表示最重要的一种方式，可以说是大数据的出现造就了知识图谱。从技术体系来看，广义上讲，知识图谱是一种技术体系，就跟深度学习一样，它不是指某一特定的模型，是指一类模型，一类技术。知识图谱某种程度上被当作是大数据时代知识工程具有代表性的一脉技术。所以从狭义和广义这两个角度来理解知识图谱，可以是一种语义网络，也可以是一种技术体系。它是典型的大数据时代的产物。

我们知道，在计算机领域，知识图谱最早是2012年5月份Google正式提出，并且发布了自己的知识图谱。Google作为互联网巨头，当时的核心诉求是搜索通往答案，就是用户搜索一个关键字，可以直接得到答案，而不是给出包含关键字的网页。为什么在知识图谱出现之前，只能返回包含关键字的网页呢？因为在知识图谱出现之前，“Obama”和“birthday”只是一个字符串而已，机器无法知道Obama是一个人，birthday是一个属性。知识图谱的出现，使得搜索引擎可以理解搜索的关键字，并返回精准的答案。这对搜索引擎是至关重要的，是搜索引擎真正意义上实现从搜索通往答案的一个必备技术。在知识图谱出现之前，搜索引擎做不到搜索通往答案的根本原因，就是缺乏像知识图谱这样能提供大量背景知识的数据库。这实际上启发了我们语言理解是需要背景知识库支撑的，知识图谱在很多场合上被用作让机器理解语言的背景知识库，它的根本意义就是能帮助机器理解语言。

机器理解语言是一件非常复杂的事情，现在最多能说自然语言处理，还谈不上自然语言理解。语言理解是有歧义的，比如说“苹果”可以指公司，也可以指水果；语言理解往往是需要上下文的；很多语言是隐式的，表达的很委婉；语言表达具有多样性等等，这些都决定了自然语言理解困难重重。

语言的理解是建立在认知的基础之上，在座的能听懂我在说什么，是因为我们有着共同的认知，有着相类似的对世界的体验和教育背景。假想一个外星人来听报告，他就不能听懂，因为我们没有共同的认知。认知的不同决定了语言理解的不同。由于体验和认知，我们积累了大量的背景知识，如今我们想要机器也具备语言认知能力，那么机器也需要具备与人类差不多的背景知识库。这个背景知识库就是知识图谱，知识图谱的历史使命是作为一个巨大的背景知识库让机器具备语言认知能力。整个语言理解就好比是冰山一角，我们看到的是表面各种各样的字符串，而实际上理解表面的字符串，需要冰山下面非常庞大的背景知识。有了知识图谱，机器看到的不再仅仅是字符串，而是可以把这些字符串映射到各种各样的实体、概念，从而建立机器自己的认知世界，就是知识图谱使能机器语言认知。

在知识图谱出现之前，已经有各种各样的知识表示，像本体、语义网、文本等等，它们都是更为庞大的知识表示形式。那为什么传统的知识表示不足以作为机器理解语言的强大背景知识呢？那是因为并不是任何知识库都可以有效地作为背景知识库。事实上，想让机器具备语言认知能力，背景知识库必须满足几个条件，第一个是规模要足够大，必须涵盖足够多的实体和概念。第二个是知识库语义关系要足够丰富，描述现实世界的语义关系是丰富多样的，知识库要涵盖常见的语义关系。第三个就是知识库表示结构要十分友好。文本是一个巨大的载体，但是文本是一个非结构化数据表现形式，机器很难处理，而知识图谱往往表达为RDF结构，是一种结构友好的表达形式，是能够被计算机有效处理的。第四，受益于大数据的多源异构性，知识图谱的质量很高，我们还可以用众包的手段来进行质量的保证。

正是因为知识图谱具有这些特性，才使知识图谱使能机器语言认知成为可能。

再来看看知识图谱的优势，首先，知识图谱规模很大，很多知识图谱动辄数千万，很多企业像google，微软都有上十亿、百亿的实体，对实体的覆盖规模是十分巨大的。

第二个就是语义关系丰富。不同的在线知识库涵盖了各种各样的语义关系，再互联到一起，就基本能涵盖我们常见的语义关系。

第三个就是质量很高。通过众包和多源校验使得知识图谱的质量非常高，CN-DBpedia还可以通过用户的反馈来校验。在大数据时代，我们可以通过很多的手段来确保知识库的质量。

第四个就是结构很友好。知识库表示出来都是一个个三元组，是RDF或者图的结构。

现在有越来越多的知识图谱出现，三月份的数据显示至少有一千种常用的知识图谱，这个数据量还在不断的增长。

到了今天，我们要重新审视一下知识图谱技术的发展。在2012年至今五年的时间里，我们看到了一系列的变革。

从两个方面来讲，一方面是应用场景，另一个方面就是技术生态。随着应用场景和技术生态的变化，整个知识图谱面临着全新的挑战，以前的技术手段在应对现在智能化大潮给我们提出的挑战的时候，已经有些力不从心，所以我们要研发一些新技术。

从应用的角度来讲，知识图谱的应用趋势越来越从通用领域走向行业领域，现在的局面是通用与行业应用百花齐放，各行各业都在讨论适合自己的知识图谱。今天展示给大家的是我们自己实验室的知识图谱，在通用领域，我们实验室有CN-DBpedia，Probase plus。CN-DBpedia是一种通用百科知识图谱。通用知识库在通用人工智能中扮演着重要的角色，是未来竞争的战略制高点，即掌握了通用人工智能技术，可以从一个战略制高点向下俯冲，这样收获领域知识图谱的成果是相对容易的。但是如果只具备领域人工智能的能力，未必可以掌握通用人工智能能力。虽然领域/行业人工智能技术更容易落地，但是从战略层面上来讲，一定要对通用人工智能予以高度的关注。领域人工智能在很多领域已经落地开花，但领域图谱的应用也不是简单的事，还具有很多挑战性的研究问题，领域知识库构建的语料往往比较稀疏，比如在某个领域提到某个事实，某类关系的样本非常少，这个时候利用关系去构建有效的抽取模型就会变的十分困难，在样本稀疏的环境下去做领域知识图谱的自动化构建仍然是件非常困难的事情。

第二个应用场景发生变化是从搜索延伸至推荐、问答等复杂任务。举个例子，图中知识图谱帮助搜索代码，如果能利用知识图谱理解搜索意图，并返回准确的代码，这样效率将大有提升。用户搜索输入关键字，机器给出答案，还可以为用户做智能推荐。将来更智能的形式就是直接问答，我们实验室研发的“小Cui问答”就是这样的问答系统。

整个知识图谱将来会在越来越复杂和多元的场景下发挥重要的作用。

再进一步就是交互方式发生变化。以前的交互方式更多是基于关键字，现在越来越多的是自然语言的处理，对话式的处理，像Google Now，Apple Siri，Amazon Alexa等等，很多大公司都在研发自然语言交互的产品，这意味着自然语言交互成为未来人机交互的主流方式。对知识图谱提出的挑战就是，对自然语言的认知到了一个新的高度，需要能够利用知识图谱帮助平台和系统更好的理解问答，上下文对话等等。

进而就是从用户提的问题来看，呈现出从简单的陈述类问题到解释类问题的变化趋势。以前用户喜欢问“what”、“who”、“when”、“where”这样简单陈述性问题，现在越来越多的问“why”、“how”。用户对系统智能性的期望越来越高，很多用户在Google上问why类问题，但是很遗憾，Google还不能进行回答，只能回答陈述类问题。随着“why”、“how”问题越来越多，解释就变的很重要，可解释是未来人工智能发展的核心诉求之一，是人机互信的前提。

再进一步就是，以前在实体之间找到一些简单关系就行了，比如王宝强的老婆是马蓉，但现在不满足于简单关系的揭示，而是希望能够推理出一些深层关系，比如王宝强离婚案，为什么王宝强会请张起淮当律师？王宝强和冯小刚是好朋友，冯小刚有个御用演员叫徐静蕾，张起淮是徐静蕾的法律顾问，所以王宝强会请张起淮当律师，这个就是深层关系推理。隐式关系发现、深层关系推理将成为智能的主要体现之一。

再从技术生态的角度来看，人工智能也发生了很大的变化。从机器学习来看，虽然深度学习发展非常迅速，并且在样本数据丰富的场景下取得了很好的效果，但是机器学习仍然存在很多问题，小样本学习、无监督学习手段有限，现有模型难以有效利用大量先验知识。再从自然语言处理角度来看，虽然自然语言处理在深度学习的推动下取得了很大的进展，但是自然语言处理离实际应用需求还很远，还只是在处理阶段，远远谈不上理解。从知识库本身来看，英文图谱积累迅速，发展得相当成熟，并且在很多应用中发挥了巨大的作用，但是其他语种的知识图谱十分缺乏。虽然现在知识图谱很多，但是大部分都侧重在简单事实，对于常识的覆盖仍然十分有限。很多知识图谱都是依赖手工构建的，如何从大规模数据里用数据挖掘的方法自动挖掘出知识图谱的手段仍然缺乏。

时至今日，对知识图谱的研究必须要进行反思，在变化下我们将面临怎样的机遇和挑战呢？

第一个挑战是知识图谱构建的有效策略和方案。知识图谱涉及的领域很多，构建的有效策略和方案显得格外重要，一个有效的策略往往可以显著地弥补模型上的不足。如何充分利用知识的跨语言特性；如何区别对待数据来源的不同结构化程度；基于概念模板的迭代式抽取；基于语义与语法混合模式的抽取都需要一个有效的策略和方案，我们初步实验下来，有效的策略和方案是可以显著提升知识图谱自动化构建的效果的。

第二个挑战是大规模常识的获取和理解。随着知识库应用越来越深入，对于智能化要求越来越高，其对于常识的需求也会越来越显著。现在大规模人工智能技术是缺乏常识理解能力的，常识缺乏是人工智能研究的重大制约瓶颈。

第三个挑战是在样本稀疏环境下的领域知识获取。很多领域知识图谱缺乏有效的样本，如何将高频知识的获取模型有效迁移到样本稀疏的低频知识，是当前知识获取领域面临的重大难题。

第四个挑战是数据驱动与知识引导深度融合的新型机器学习模型。因为不能有效利用先验知识，当前机器学习的模型效果越来越接近天花板，如何把先验知识与机器深度学习结合到一起，这是个挑战。

第五个挑战是基于知识图谱的可解释人工智能。是否能利用知识图谱去解释机器产生的结果，这个将来会越来越重要。

第六个挑战是知识获取中的人机协作机制与方法。人机边界问题，这实际上是一个非常重要的问题。

还有就是知识驱动的机器语言理解。如何利用知识帮助机器理解语言，做有效的搜索和推荐。以前的搜索和推荐是基于用户的行为，将来会越来越多的利用背景知识来开展搜索和推荐。

我们初步进行了一些工作，在知识图谱构建的策略和方案方面，充分利用知识的跨语言特性，把其他语言的知识迁移到中文里，从而有效地构建知识库。遵循先易后难的顺序，尽量避免从零开始，可以从通用知识库导出某个领域作为种子，还可以做跨领域迁移，从邻近领域迁移。

在可解释人工智能这块，国际上已经在做很多事情。以后给出一张猫的图片，机器不仅会告诉用户这是猫，还会告诉用户是因为观察到了爪子和耳朵来推断这是猫。

机器学习模型将来必须具备解释性，用户才会相信这个模型，在这个方面，我们现在可以做可解释的推荐，比如用户搜索“三星S8”、“苹果8”，机器会推荐“华为P9”，因为机器知道用户在搜索高端手机。机器不仅给你推荐，还告诉你推荐的原因。

对于现在领域知识图谱样本都很稀疏的问题，现在有两个基本思路，一个是从高频向长尾的迁移，有些关系样本很少，但也有些关系样本很多，把样本多的关系迁移到样本比较少的关系。还有一个就是富样本向穷样本领域迁移，把人类先验知识和规则与深度学习模型有效融合在一起，从而能够有效生成自然语言模型。

在常识获取和理解上，我们已经在常识抽取、推断、判定等方面做了一些工作。

最后，套用Edward Feigenbaum的一句话“Knowledge is Power in AI”，知识在整个AI中是非常重要的，还有一句话要送给大家，卡尔•雅斯贝斯在《时代的精神状况》里提到的“即将到来的是一个终点，还是一个起点？它会不会是一个起点，其重要性相当于人最初成为人的时候，所不同的只是人现在拥有大量新获得的工具以及在一个新的、更高的水准上的经验能力？”

我的报告就到这里，谢谢大家！

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。