【知识图谱】思必驰初敏：交互式智能服务，风口即将到来

2017 年 11 月 15 日 产业智能官 思必驰

10月27-28日，易观A10大数据应用峰会在北京举行，历经八年，A10已成为中国互联网大数据领域最具影响力的思想交流平台之一。大会邀请了思必驰副总裁/北京研发院院长初敏博士做客A10“用户智能”主论坛，以《交互式智能服务》为主题，分享和探讨了人工智能浪潮下的新动向。

图思必驰VP/北京研发院院长初敏

从1956年达特茅斯研讨会开始，人工智能经历了兴起与蛰伏交替的漫长之路。近些年，亚马逊Alexa的风靡、AlphaGo在棋场的春风得意又再次将人工智能推向了风口浪尖，资本的注入、技术的创新、产品的涌现，都另这一行业生动不已。世界，也随之改变。

变化，已悄然来临

人工智能驱动企业运营模式变革

从PC互联到移动互联网再到物联网，企业跟客户的触点越来越丰富和多样化。

在传统的互联网时代，大部分企业无法建立与客户互动的有效渠道，企业主要通过广告进行传播，客户很难联系到企业，二者互相知之甚少。智能手机的普及让世界发生了变化，微信、淘宝、京东类的平台备受欢迎，人们在手机端完成的事情越来越多。在与客户沟通方面，企业逐步觉醒，开始尝试微信、专属APP等途径，建立与客户间的直接接触渠道。

物联网时代，人们拥有的智能设备变得更多。初敏博士表示，每一个智能设备都可以成为企业与客户沟通的触点，随时随地的交互式服务成为可能，但从某种角度来看，也增加了交互难度。此时，企业的销售和服务的形态面临变革。

交互中不容忽视的主体：企业

大众一般都从“人”的视角感受智能设备为生活带来的优化和改变，所以人们将其称之为“生活的智能化”。无论是娱乐服务、社交服务、生活助理还是出行服务等等，人们通过各种智能设备获得产品服务，或者说是寻求到了企业的帮助。

但是，人们的智能生活逐渐也暴露出一些问题。

今天被称为智能音箱的元年，智能音箱产品层出不穷，但从实际应用上看，同质化相较明显，服务内容仅仅是音乐、FM、天气查询等，音箱没有成长为用户生活的强需求。初敏博士表示“这是个挑战，将这个挑战延伸出去，是因为没有提供足够丰富的内容”。相对来说，车载场景下的智能设备的应用相对可观，但除了导航功能之外，其他内容服务的交互仍不理想。

初敏博士表示，这主要有两方面的原因，一是交互流程做的不好，二是后端资源的服务不具备相应的能力，即便设备追踪到用户意图，也无法查找到相应的资源。资源服务的调取逻辑与用户的查找逻辑不匹配，从服务端，提供的数据查询和搜索能力不支持，这也会致使整个交互流程出现问题。

就此，初敏博士强调，在人机交互中，除了人和终端设备，还有一个很重要的主体，就是企业，这是不容忽视的。

大风起兮云飞扬

“服务智能化”成为必然趋势

未来企业的竞争力在于服务能力。在交互的过程中，设备只是中介点，最终需要更多企业提供相应的服务。只有企业提供足够的服务后，人才能通过设备享受这些服务。当前每个企业在产品推介、商务合作、市场品牌、客户服务等方面都有强需求，伴随着企业与客户触点的多样化发展，这其中的量和规模非常庞大，降低人力实现“服务智能化”成为必然。

初敏博士强调，这里的智能服务并不是指人们常说的Chatbot，这不是为了chat，而是为了把所需信息以智能服务的形式提供在那里，让客户可以通过不同的入口来查找信息，了解详情，并建立与企业的服务关系。只有足够多的企业提供了服务之后，人们才能真正的享受到这些服务。当前这一领域仍有较大的提升和发展空间。

交互式智能服务的大风正在来临

初敏博士指出，未来若干年，需要交互式的智能服务，人和企业服务之间真正需要的是智能的帮助。

当前花样繁多的智能设备是入口/触点，触点背后的内容才能提供真正的服务，设备具有多样性，很多并没有屏幕，所以语言交互或许会发展为主要形式。但是交互逻辑的组织需要依托更多的信息，例如视觉捕捉表情信息、体态信息、周围场景信息，说话人的上下文信息等，基于这些信息组织逻辑之后，整个的交互过程才会更加理想。

交互式智能服务的难关

第一道难关：语音接入

初敏博士指出，语音接入，是交互式智能服务的第一道难关，也是目前行业视角最集中的地方。

微信语音的使用培养了人们在近场“按住说”的习惯，智能电视、音箱等家居产品将远场交互、语音唤醒等体验引入了大众生活。技术应用也从近场的单麦克风，演变到了适应复杂场景的麦克风阵列，解决声源定位、语音增强、去混响、回波消除等等问题。就这些问题，目前已经有很多方案推出，并不断更新迭代，未来趋势渐好。

初敏博士介绍到，思必驰目前是国内智能设备领域最大的语音技术服务商，在智能设备接入的实践方面积累了丰富的经验，例如，在车载领域推出单麦/双麦方案，在智能电视领域推出线性四麦阵列方案，在智能音箱领域推出环形六麦阵列方案。近期阿里天猫精灵X1、小米AI音箱小爱同学、小米板牙智能后视镜、联想智能电视/音箱等纷纷选择了思必驰语音技术作为支持。

第二道难关：对话能力的大规模定制

解决语音接入的问题之后，更重要问题是对话交互能力的建设。初敏博士表示，智能设备品类多样，每个产品都极具个性化，语音方案的需求同样需要定制，即便是音乐功能，在车载领域的需求和家居领域的需求交互的过程也并不一样。

思必驰作为技术服务商无法替代产品厂商去定义产品。

初敏博士指出，满足产品厂商的多样化定制、新场景添加、效果检测和持续改进、个性进化等需求，才能推进交互式智能的大规模推广。例如在识别合成层面，要支持多唤醒词定制、说话人及声学环境自适应、垂直领域语言特征的自适应、风格化/个性化合成音等；在学习闭环层面，建立数据的闭环，让数据真正流转起来，不断学习，用新的数据不断学习优化；意图理解中要考虑情感因素和环境因素等，这些都非常重要。虽然这些不是系统能够完全自动生成，但要在人干预尽量少的情况尽快的生效。

在此层面，思必驰已做了尝试，推出DUI全链路智能对话定制平台，从核心对话交互系统、云端混合技能服务、场景应用和开发等层面做出了努力，后续思必驰也将不断加强对话交互的能力，在这个平台上为开发者提供更好的服务。

未来之路

知识驱动的交互式智能服务

初敏博士指出，知识驱动的交互式智能服务是未来几年的进化方向。

企业拥有自身专有知识，将知识结构化，并最终使它能够自动交互，就能够极大节省生产力，提高工作效率。对企业而言，其在产品知识、售后方案、人事政策、财务政策等方面都拥有相应的知识，对思必驰而言，这是一个结构复杂的知识集合，即便是比较小的单位体，也存在复杂的知识体系。

建立知识体系，定义表征和实现信息检索的过程，需要平台型的工具，帮助企业或者是行业快速构建知识体系，并以服务的形式存在。初敏博士指出，过去的知识服务是为搜索引擎而优化的，未来，知识服务必然要考虑到交互式的查询和需求。

在此基础上，所有自然语言理解和对话都需要知识来驱动，企业最终会拥有自己的专用数据和知识，并最终会生成相应的自然语言理解模型、对话管理的模型等。初敏博士表示，这是我们未来要做的事情，帮助企业将自身的知识转化成可交互的，未来是知识驱动的交互智能。

开放的心态站上风口

未来几年，知识驱动的交互智能的风口即将到来。初敏博士指出，谁能站在这个风口上，有两方面因素很重要：一是基础能力，就思必驰而言，拥有数十年的语音技术积累和实战经验，在核心技术、计算能力、数据积累等方面有坚实的根基。二是持续创新能力，即如何深化迁移学习、强化学习、自适应等技术的研究应用，让机器向人的方向进一步进化和发展。

初敏博士表示，站在这一风口，必须拥有开放的心态和眼光。真正实现AI产业化，单独依托一两家企业无法完成。不同企业、不同行业都有专用知识资源和特长，只有通过更加开放的合作，才能建立有机生态。思必驰目前专注在垂直场景下的智能语音服务，未来也将通过更加开放的方式与业内伙伴进行合作，推动整个行业的大发展。

开放共赢，竞合有序，下一个时代篇章会更加精彩。

王昊奋 | 从聊天机器人到虚拟生命：AI技术的新机遇

本文转载自公众号中国人工智能学会，作者，王昊奋。

10月12-13日，第七届中国智能产业高峰论坛在佛山开幕，在NLP与服务机器人专题论坛上，深圳狗尾草CTO王昊奋发表了主题为《从聊天机器人到虚拟生命：AI技术的新机遇》的精彩演讲。

以下是王昊奋老师的演讲实录：

王昊奋：我今天给大家分享的是从聊天机器人到虚拟生命。我们的产品形态和微软小冰有一点类似，我们都觉得不能做冷冰冰的技术，而是要追求更有幸福感的技术，即追求高IQ的同时也要追求EQ的进步。我先花30秒时间简单介绍一下狗尾草公司。狗尾草也有人叫狗尾巴草，生命力极强，野火烧不尽，春风吹又生。作为AI技术的创业企业，我们的首要目的就是活下来，取名狗尾草就希望狗尾草的含义可以祝福我们的公司可以长久存活。此外，狗尾草翻译成英语就是“Gowild”，可以进一步拆分为两个单词，Go+Wild，意思就是去撒野。具体一点就是：找到适合自己公司发展的场景和对应技术，突破思维定式和各种局限。这也融合了我们自己的愿景，如狗尾草公司面向的用户是年轻人，专注于泛娱乐化领域。这样，我们的Slogan也应运而生：正青春，去撒野。

大家未必知道狗尾草这个公司，但是面向情感陪伴的家庭服务机器人公子小白，大家一定听说过。情感陪伴给予了我们幸福感，但是我们希望更进一步，展现更强的生命感，这也是今天的主题：从聊天机器人到虚拟生命：AI技术的新机遇。我会从生命出发，慢慢谈到虚拟生命。

第一，我们先说一下生命，维基百科中对生命的定义可以归纳为，包括生长、繁衍、进化、意识、意志和感觉等，还有两个用其他颜色特别标出来，就是语言和思维，这是区别人和动物的最本质的区别。今天我们的论坛主题是NLP和服务机器人，NLP就是用来解决语言理解和思维表达的利器。从生命到人工生命有两条路径，一个是人造生命，可以用生物技术来实现，也就是说通过基因克隆技术来实现生命体的再造，另一条路径就是通用信息技术来创造数字化的虚拟生命。这里给出了一个二次元圈非常知名的大IP初音未来在开个人演唱会的画面。通过全息投影将初音未来（虚拟生命）投射到舞台中央，随着她的歌唱和舞动，下面的观众（真实的物理人）挥舞着荧光棒一起附和，场面非常壮观。

事实上，在我们的电影大银幕上，如耳熟能详的电影Her，还有如机器人养成影片Chappie，以及前一段时间热播的西部世界中描述的机器人都可以看作是利用IT技术完美实现的虚拟生命。

除了初音未来和大银幕上的例子，虚拟生命也逐步在我们的生活中出现，这里再举两个例子。一个例子是邓丽君，大家都知道邓丽君已经去世很多年了，但是我们通过全息投影和AI技术可以让她再现到我们身边，这一定是这一种很过瘾的体验，一个触不可及的人，突然出现在我们身边，走进寻常百姓家，我们只能感叹技术让我们的生活更丰富多彩。另一个例子是美国《纽约时报》的记者詹姆斯将去世的父亲以人工智能机器人的形式赋予了永生。他录制了父亲在生命最后阶段的话语，并整理出91970 个单词，通过开源的PullString系统，创造了一个具有父亲的性格特质的“虚拟生命”，以父亲独有的口吻，回忆往事，和家人交互。

大家都会问虚拟生命具有什么特点？和刚刚几位老师说的一样，会分为几方面：首先是感知（即看得到、听得见、说得出），其次是认知，需要有理解、记忆、推理联想和表达等，最后是进化，不断学习并逐步产生自我意识。

具体来说，感知能力中看得见对应到计算机视觉（Computer Vision，CV），听得见就是对应语音识别，说得出就是语音合成；到认知能力，就有理解、记忆、学习、表达、规划、推理、联想、情感等；可进化能力，达尔文的《进化论》大家都了解，物种是可变的，生物是可进化的，我们在进化身体的同时，也同时进化我们的思维。

接着，我们再来谈一下虚拟生命的技术和成熟度，从生命到虚拟生命，我们到底需要什么样的技术呢？我们先来看一下Gartner 2017年的技术成熟度曲线，相对成熟的是AR、VR等，对于虚拟现实和增强现实需要有更多高质量的内容，而我们正在经历和突破的包括虚拟助手、物联网、智能机器人，机器学习和深度学习、认知计算，处于将来时的还有脑机接口和量子计算。围绕之前提到的虚拟生命的三大方面，我们来看一下技术的发展。今年8月20日，微软语音和对话研究团队负责人黄学东宣布微软语音识别系统取得重大突破，错误率由之前的5.9%进一步降低到5.1%，可与专业速记员比肩；而Google在2015年提出的深度学习算法，已经在ImageNet2012分类数据集中将错误率降低到4.94%，首次超越了人眼识别的错误率（约5.1%）。DeepMind公司在今年6月发布了最新的WaveNet语音合成系统，也是目前世界上文本到语音环节最好的生成模型。

我们再看一下认知技术到底达到什么水平？由斯坦福大学发起的SQuAD（Stanford Question Answering Dataset）阅读理解比赛，截止8月22日，Salesforce Research暂列第一，F1达到了85.619%；谷歌推出的神经机器翻译将误差率降低55%到80%；2012年谷歌推出了知识图谱，用于语言认知（概念识别、联想归类、归纳、推理），并因此提出新的语义搜索引擎，IBM利用认知计算引擎推出基于个人的全方位医疗体系的沃森医生，还有讯飞牵头各大高校科研机构参与的863高考机器人项目，这些成果和项目正不断突破认知极限，使得我们有更强的语言理解和思考。

在进化方面，AlphaGo在人类棋局监督学习基础上利用深度强化学习通过自我博弈来不断提升棋力，最终战胜了世界冠军李世石。最近另一个值得关注的就是DeepMind和暴雪公司达成合作意向，意图将进化技术应用于著名的即时战略游戏《星际争霸》，企图挑战人类电竞冠军。进化计划不仅包括早期的遗传算法和蚁群算法等仿生类的尝试，也包括近年来非常火爆的迁移学习、强化学习、终生学习和生成对抗网络等新型算法和学习范式。

介绍完感知、认知和进化方面的技术发展之后，我们就要思考感知+认+进化=？利用现有技术，能够实现什么样的产品？我们构建二维坐标轴，横轴是时间，纵轴是技术发展，我们发现我们经历了从过去的专家系统跨越到现在的聊天机器人，并逐步在往技术要求更高的虚拟生命进军。事实上，聊天机器人本身就是感知、认知和进化各种技术的集大成者，而虚拟生命并不是突然蹦出现的新鲜事物，可以理解为聊天机器人的下一代范式。这里举几个大家耳熟能详的例子来介绍一下聊天机器人的演进。2010年SIRI作为虚拟个人助理搭载在新一代iphone4手上发布，将聊天机器人的理念根植于大家心中；2011年IBM的Watson机器人在《危险边缘》智能问答比赛中战胜人类冠军；在2016年微软大会上首次提出对话即平台的概念（Conversation as a service），在今年8月22号微软又发布了第五代小冰，不仅首次在商业产品中使用了生成式模型，还能主动撩用户。

从聊天机器人升华到虚拟生命，技术方面存在不小的挑战。感知方面需要存在感官选择和整合，全双工模式，多人沟通和远场交互等方面不断提升。在认知方面，意图与表达多样化的识别、情感计算、多轮对话及上下文管理，常识推理，个性化和回复一致性等都是亟待解决的难题。在进化技术方面，深度学习利用大数据的红利，对于特定任务可以做到举一万反一，而我们人类是小数据学习的典范，可以做到举一反三，如何让虚拟生命做到基于小数据的泛化学习是一个核心挑战。此外，自我认知管理，即知道我们知道什么东西，不知道什么东西对于虚拟生命处理拒识也有很大的帮助。当然快速性格建模以及快速价值观的形成都是构建虚拟生命进化技术需要关注的。

我们再来说说虚拟生命的实现路径。从数据科学的角度来看，来自卡内基梅隆大学的William W. Cohen教授指出，虽然大部分的自然语言处理问题都可以通过数据和机器学习（尤其是深度学习）来处理，但仍然有很多问题比如说基于逻辑的语义解析不能够很好的解决。自然语言处理的结果通常是以逻辑表示，但这些结果一般而言都是不确定的。因此，可扩展性（Scalability）、表示（Representation）以及机器学习（Machine Learning）作为数据科学的三个层面，融合虽然困难，但一定是趋势所在。更简单来看，融合就是刚刚说到的深度学习+知识图谱，深度学习和知识图谱的定位有什么不同？深度学习是更聪明的AI，更多可以做感知、识别和判断，但是还是需要有更多的学识，所以需要知识图谱帮助做思考、语言和推理，所以两者是互补关系。深度学习的突破，包括极深的深度残差网络助力图像识别的商业化，层次序列到序列的神经机器翻译，以及多模态的看图说话和图片生成文字等。然而深度学习应用在虚拟生命存在诸多局限，例如：如何自动评价对话中生成的回复？端到端对话模型中的知识，基于数据驱动使用Embedding或Tensor来表示是否足够，是否需要嵌入外部知识资源；端到端过程中如何感知外部环境如个性、情感和场景等，怎么打破严重依赖数据质量和数量的限制。

融合的另一个主角知识图谱，它也不是一个新概念，从语义网络、本体论到链接数据再演化到知识图谱。这里列出了开放知识图谱图，每一个节点代表一个数据源，边代表数据源之间的领域或领域实体之间的冗余。知识图谱由于是谷歌在2012年提出的，他被用来提供语义搜索；接着就是辅助问答，因为现在机器人很火、物联网很火，需要给万物都搭载一个背景知识库。在商业智能方面，很重要的就是说从大数据变成可计算大数据，有两个典型应用，一个是Palantir，用于反恐和国家安全，另一个是KENSHO，用于金融智能分析。

KG也可辅助通用人工智能（Artificial General Intelligence，AGI），即在常识推理方面起到作用。过去人们常用图灵测试对机器的智能进行评估，近年来，Winograd Schema Challenge逐渐进入大家的视线。这里举一个指代消解的例子。指代消解是一个经典NLP任务，旨在将代词指向具名实体。例如，The trophy would not fit in the brown suitcase because it was too big (small). What was too big (small)? 当我们描述it是big时，人们很容易理解这时候是在说奖杯（trophy）；而当it与small搭配时，我们也很容易识别出在抱怨suitcase太小。这个看似非常容易的问题，却难倒了机器，这是因为人具有非常庞大的世界知识（world knowledge）和常识知识（common-sense knowledge）。当我们仅采用NLP技术来努力理解并给出答案时，正确率仅50%；当结合知识时，正确率提升到了60%，而及格线是90%。因此，我们离真正的通用智能还有很漫长的路要走，需要更多的技术突破和数据积累才能完成这项挑战。

深度学习与知识图谱的技术融合存在很多挑战。人的符号记忆是连续的么？包括Hinton也说，智能精华怎样实现推理；人的符号记忆是结构化的么？大脑分区域管理不同的文字语义，一个区域分管某个语义区域或一组相关的概念。

大脑中知识组织的结构是文本化还是结构化？符号记忆的获取和推理过程又是什么？符号计算推理过程是怎样的，就是知识嵌入或者现代知识表示很粗糙，到底是不是一条正确道路，这都值得我们思考。

在这样的实现路径指导下，我们来做虚拟生命的产品初探。狗尾草公司在今年推出了全球首款AI+虚拟偶像琥珀-虚颜，承载她的机器是Holoera（全息纪元），日本在年底将推出Gatebox。这两款虚拟生命的产品，都使用全息投影技术展示虚拟人物，并且能通过语音和图像等进行多模态交互。这里我着重介绍一下Holoera+琥珀虚颜。用AI创造的虚拟生命，它有与众不同的生命形态，相比旁边大家看到的各种各样基于舵机构成的传统机器人，虚拟生命采用3D建模，可通过全息投影来展示，动作更加自然；虚拟生命也有自己的24小时生活，生命感更强；有灵魂、有价值观，有人设和自己的故事。

我们来看一段视频，它有很多情绪表达，有多模态输出，有情感、有语音，这些需要在时间轴上作同步合成。首先，Chatbot需要更加个性化的知识图谱。除了前面提到的实体KG和兴趣KG等开放领域的稀疏大图，我们也需要构建机器人KG和用户KG等个性化稠密小图。机器人或Agent需要图谱来建模和展示它的自我认知能力，而用户图谱则可被看作是更精细化的用户画像的知识表现。例如，机器人如“琥珀.虚颜”，有情感状态，喜好，技能等知识维度。同理，用户则需要表达其职业状态和生活轨迹等信息。需要强调的是，无论是个性化小图还是开放域大图，都不是独立存在的，需要将它们融合在一起，才能发挥更大的价值。机器人喜欢吃的食物则需要和实体KG中的食谱图谱关联，而与用户形成经纪人、好友等社会关系，同时爱好方面则和兴趣图谱又关联在一起，可以实现机器人社交、机器人-用户社交和用户社交网络的统一连接。

其次，我们的世界不仅仅是静态的，而是动态地反映各种事物在时空上的变化。因此，我们不仅仅需要刚刚谈到的静态图谱，而是需要思考如何表示和应用动态图谱。对于一个机器人，它从早到晚会做不同的事情，也就是有自己的生活规则。我们该如何刻画生活轨迹呢？这就需要我们在图谱中体现时态知识。另一个例子，用户行程，即对于用户图谱，需要记住用户各种已经发生、正在星星或即将发生的事件。图谱中的行程不仅仅是一个关系或属性，而是一个由多元（N-ary）组成的事件。我们需要定义多种事件类型，并刻画时间和空间两个维度。

第三，机器人不能只是冷冰冰的回答用户的问题或帮助用户完成特定功能。它需要感知用户的情感并在输出答案回复的同时伴随着相应的情感，这样才更加拟人化。我们发现，之前构建的知识图谱大多是客观的，即描述一些客观的事实。如何在结合个性化图谱时，能包括一些主观知识，进而刻画机器人或用户的情感元素。例如，用户说：“我心情不好”。这属于闲聊中的情感表达范畴。这时需要将用户当前的心情状态更新到用户图谱的对应维度数值中。相应地，机器人也会有自己的心情、体力，甚至和用户之间的好感度关联。当此时，机器人心情不错，同时和用户很亲密时，它就会主动关心用户。这样结合机器人和用户情感因素的动态回复会更加温馨和贴合场景。当在多轮对话时，用户进一步说：“来一首快乐的歌吧”。需要进一步结合音乐知识KG（快乐作为歌曲的曲风或风格标签）和用户KG中的音乐偏好，推荐用户喜好的欢快的歌。

第四，我们发现聊天机器人为了完成很多功能需要对接外部服务或开放API。此时，图谱就需要从传统的关系型知识图谱（刻画二元关系）扩展到支持动态服务的动态图谱（刻画多元关系，事件属于服务图谱的一个特例）。另一方面，如何刻画服务之间的各种关系（如因果、时序依赖等）也是图谱扩展过程中需要考虑的。例如，当完成了订餐，会有很多Follow-up的服务（订花或预约车等）可作为后续服务被消费。建立这些服务之间的关联对于进行精准的多轮对话过程中的场景切换是非常有必要的。

我们接触世界的手段不仅仅是文字，而是结合图像、语音和文字等多模态来了解外部世界的。因此，我们所构建的知识图谱也应该从单纯文本自然扩展到多媒体知识图谱。而ImageNet和Visual Genome正是这方面的努力。但是这里我想强调的是对于用户图谱这样更新频度非常高且很稠密的KG，多媒体知识的引入能帮助机器人从更多的维度来了解用户，并提供诸如Visual QA等潜在的问答服务。例如，小明正在和琥珀进行交互，通过摄像头识别出当前交互的用户是小明根据小明的图像与用户ID的关联，进一步得到其长短时记忆，了解到他在4.20到23号期间会去北京出差，而4月24号要和小兰共进晚餐。此时，通过用户图谱中的社交关系了解到小兰是小明的女友，当我们需要进一步了解小兰长什么样时，或者当小兰出现在琥珀面前时，需要可以认出小兰，这时也需要用到我们提到的多媒体知识图谱。

在实现过程中，首先需要考虑实体识别和链接。实体识别称为Named Entity Recognition，简称为NER。在传统NLP任务中，仅能识别PERSON（人物）、LOCATION（地点）、ORGANIZATION（组织机构）、DATE（时间日期）等有限类别。在实际应用中，NER的主要挑战在于识别大量细粒度实体类型，比如以Schema.org作为实体类别的分类体系，这里有很多标注数据充足的大类，也有很多缺乏标注数据的小类，如何保证在小类上的识别准确率。此外，分类体系是有层次结构的，如何保证底层的细粒度类别上有令人满足的识别率。例句“我想听一首海阔天空”中的“海阔天空”通过NER任务可以识别为是一个音乐作品。仅仅这样是无法执行对话意图“音乐点播”的，我们需要进一步将候选链接到知识图谱中的给定实体，这一过程称为Entity Linking。这里的核心在于歧义消解，一般借助于候选周围的其他实体或用语作为上下位来帮助去歧义。如果如例子所示，仍然无法明确是哪个实体，可通过反问来引导用户来给出更明确的实体指引。在实体链接过程中，我们所面临的挑战在于如何应对新兴实体（Emerging Entity）和实体的新兴说法（各种新说法和别名）。

聊天机器人依赖于NLP，而大量NLP任务可转换为有监督的分类或序列标注问题。我们往往会为特定任务下标注数据的缺乏或不充足而发愁，这一点在利用深度学习时尤为严重。这时，也将推出知识图谱的第二个典型应用，叫做数据增强，也就是说 Data Augmentation。具体来说，通过将知识图谱与文本语料库关联，形成大量弱标注数据。这在关系抽取或事件抽取等任务上应用广泛。例如，对于三元组<琥珀，喜欢吃，葡萄>，通过一定的泛化，我们将琥珀转换为PERSON，即在Web上收集PERSON和葡萄共现的描述片段，这些描述片段可能代表人物喜欢吃葡萄的特定模式（蓝色例句），也可能代表噪声（红色）。如何通过聚类分析中的异常点检测或噪声建模等方式将弱标注语料中的噪声识别并剔除。当然，包含一定比例的随机噪声，对于模型训练是一定帮助的，可以保证模型具有一定的泛化能力和鲁棒性。使用Web作为关联的语料库，主要看中Web上描述比较多样化，且信息具有冗余性，可以在保证覆盖率的同时确保数据的分布贴近真实情况。然而对于以语音作为主要交互方式的口语化聊天对话场景，我们仍然需要考虑从Web语料上学习到的模式或训练得到的模型如何进一步迁移适配。

第三个是知识问答（KBQA）。其中句理解的难点在于NLU，而候选答案生成则与检索过程关联，至于答案融合和排序，则重点考虑各种基于证据的收集和学习排序算法。这里我们看一个真实的例子，比如说“你觉得胡海泉这个人怎么样？”，这是一个意见询问类查询（opinion query），此时可以有很多回答，为了使得答案的多样化，除了利用摘要技术（summarization）从百科站点中得到“胡海泉是个歌坛巨星呀”之外，通过机器人KG中的经纪人关系，可以显式表明琥珀和他的关系。更进一步，可以通过琥珀记忆和技能关联，主动推荐“海泉给琥珀写的歌”。当用户给予明确的回复时，将表演自己的才艺，即唱自己的歌。在我们所描述的知识图谱下支持问答，需要额外考虑：1）如何统一对实体、问句、图像、上下文进行统一的表示，映射到同构的语义空间中？2）知识库永远不可能是完备的，如何从KBQA扩展到支持知识库和Web的混合QA场景下，并提供精准的数据源选择和语义解析？3）如何评估问句的复杂程度，并从单一知识库查询扩展到多知识库查询？

第四个是联想和推理。这里我列举了三种推理，但实际情况下不局限于这三种。第一种是空间推理，比如说“桌子上面有电脑，电脑旁边有水杯”，然后问，“桌子上面有什么”，正确的回答是电脑和水杯。桌子上有水杯是通过空间位置的判断得到的。空间推理在地理类问答和智能家居控制等应用中有非常广泛的应用。第二种是答案类型推理。答案类型（Answer Type）作为一种很重要的证据，对问答的准确性有很大的作用。这里的推理包括实例推理（如例子中乒乓球是一种运动）、上下位推理（白色家电是一种家电）和互斥推理（空调和电视没有交集）等。第三种是场景推理，即结合场景业务规则和相关常识知识进行一些联想。例如空调需要一定时间之后才能制冷，而用户在这段时间感到热时可以吃一些冷饮。除了这三类，冲突检测对于聊天机器人尤其是用户记忆很有价值。这里不仅包括前面提及的类别之间的互斥定义，还可以包括关系单值或数量约束，甚至形成很多由推理得到的事实和显式定义的事实组成的冲突关系链。这些对推理机的表达能力提出了更高的要求。

为了实现上述这些用于构建虚拟生命的AI技术，我们构建了一个AI引擎GAVE（Gowild AI Virtual Engine，人工智能虚拟生命引擎）。我不会具体说这个引擎到底怎么实现，就是给大家一个概述，最底层，我们考虑实现知识图谱统一表示、构建与融合，高效的知识存储与知识计算，AI+HI=增强智能，我们在弱人工智能化，我们引入人类的智慧，我们要在这样一个闭环中帮助机器进化。第二层是感知智认知智能的一体化，传统的方式，错误会继续放大。从单一模态到多模态融合交互，也是我们发展的方向。只建一个知识库没有用，怎么通过知识库建立语义和语用的桥梁。

问答聊天的服务化，支持场景化AI快速配置，开放平台接入，我们需要站在巨人肩膀上，不能什么东西都自己做，因为我们是小公司，但是我们的愿景和想做的事情很宏伟，我们需要和大家一起合作。我们虚拟生命的口号叫让AI打破次元壁垒，也就是说我们是三次元人群，我们构建的虚拟生命是二次元的美少女，我们如何建立这样一个通道，打破次元壁垒，是我们比较关注的事情。

谢谢大家！

CAAI原创丨作者王昊奋

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。