当 AI 全面实现认知智能时，机器人还只是机器吗？

2019 年 5 月 9 日 未来产业促进会

点击上方“公众号”可以订阅哦！

Gartner 曾经预测，2020 年左右 85% 的客服服务都将由人工智能完成。这个数据现在看来比较乐观，但就现阶段的智能机器人客服，还不尽如人意，离真正的智能尚有差距。小 i 机器人是最早深入聊天机器人领域的公司之一，CEO 朱频频博士曾称“小 i 机器人在深度语义交互这样的技术层面上几乎没有竞争对手”。

那么小 i 机器人是如何构建 NLP，尤其是深度语义交互的核心竞争力的呢？InfoQ 记者有幸采访到小 i 机器人副总裁&产品研发中心总经理李波，为我们介绍小 i 机器人在 NLP 技术方面的难点突破。

1认知智能落地依旧艰难

近年来，随着代号为 AlphaGo 的围棋人工智能机器人打败了世界围棋排名第一的人类棋手，人工智能热潮再度袭来，有夸张说法称失业大潮即将来袭，人工智能将会大量替代人类的工作。而李波表示，“真正接近大众认知的人工智能‘认知智能’落地依然艰难”。

人工智能包含三个层面，计算智能、感知智能和认知智能。其中，计算智能即快速计算和记忆存储的能力，是感知和认知的基础，适用于规则明确的特定领域，比如科学运算、逻辑处理等，这方面机器已经超过了人类。感知智能则包括目前常见的语音识别、图像识别等，模仿人类的听觉、视觉等感知能力，由于深度学习的进展开始逐步接近人类的水平，成熟的落地应用较多。以 NLP 为基础的认知智能，需要将信息进行处理，并整理成有意义的知识和结论，其能力一定程度上是弱于人类的，是最难落地的技术。

目前，全球认知智能的产业路径分为两种，通用和商用。通用人工智能的终极形态是可以在“衣食住行”各个领域全方面的帮助人类，这是人类的终极梦想，但确实还有一段很长的路要走。

商用的方式则是将技术与特定的领域、行业相结合，在可能的范围内让技术落地，产生价值。小 i 机器人就是通过商用的方式将认知智能应用于多种特定场景中，从而产生实际的价值。深度语义交互能力，即解决用户复杂问题的能力，这也是小 i 机器人场景服务和商业价值的核心。

那么 NLP 在小 i 机器人内部的技术体系中到底占据怎样的地位呢？

李波解释道，NLP 在小 i 的技术体系中占据最核心的地位。当然这里所说的 NLP 不仅指的是词法、句法等基础 NLP ，还包括 FAQ 问答、Conversational 对话、知识构建等等技术。小 i 机器人早在 2004 年便已开始进入人工智能领域，MSN 上的聊天机器人小 i 曾经是近 1 亿用户的好友；从 2006 年开始转向 2B 为政企客户提供智能客服系统；并且随着 AI 技术的发展，在智能客服之外，小 i 机器人在更广阔领域提供“AI+ 行业”解决方案。但不论聊天机器人、企业级的智能客服系统，还是“AI+ 行业”解决方案，其技术领域包含多渠道接入技术、集群负载均衡技术、语音识别与合成技术、OCR 技术等等，占据最核心地位的就是理解自然语言的 NLP 技术。

2NLP 在机器人应用落地的最大挑战

感知智能（如图像识别）的输入输出一般是单轮的，而 NLP 往往依赖上下文信息才能得到结果。李波介绍道，NLP 应用首先依赖背景知识、常识性知识库的构建；其次，NLP 往往需要多轮交互后才能得到用户意图；另外，NLP 技术在应用中往往需要针对实际运营反馈进行实时干预，做到过程可控及快速优化；最后，对自然语言的进一步理解需要结合视觉（图片）、听觉（语音）信息（多模态技术）来分析，这样才更接近人类的处理方式。

其中，多模技术（结合视觉听觉）由于技术成熟度、数据缺失等原因，目前大部分处于研究阶段。知识库构建、多轮交互技术、过程可控及快速优化是实际应用中挑战最大的。那么小 i 机器人是如何面对这些挑战的？

李波总结说，“小 i 经过多年的积累，形成了针对不同行业的行业知识库，在 NLP 相关模型训练期间会引入行业知识作为 Feature 进行训练，在语义理解期间会结合这些行业知识进行推理，进而达到用户单轮意图的精准定位；另外，小 i 通过槽位推理、业务场景交互流程等多轮会话技术，完成对上下文意图精准理解；在过程可控及快速优化层面，小 i 通过深度学习模型 + 语义理解模型的混合模型引擎达到语义理解的过程干预及输出可控，同时，依托智能学习机制形成的运营闭环，达到能力的快速迭代、不断提升。”

具体举例来说，首先是基础的知识库构建。小 i 机器人一直对数据的积累都非常重视，在最初的聊天机器人时期的对话库中就开始了积累。起初对话库主要基于短文本搜索技术应用于问答，后来随着深度学习技术的不断发展，特别是 Seq2Seq、BERT 等模型的出现，对话库作为各种模型语料加以应用，逐步形成了“数据 - 模型标注 - 人工审核 - 模型应用 - 数据”闭环的“iBot 数据综合平台”。

另外，面对不同结构类型的知识，小 i 机器人的知识库包含基于语义关系的语义词类网、基于本体扩展的语义知识图谱、基于业务场景的语义知识流程等，不同类型的知识按行业组织在一起进而形成最终的行业知识库（或者叫领域知识库）。以语义知识流程为例，平台先对原始交互日志进行清洗，通过模型结合规则方式，判断可能存在业务场景流程的会话，并标识出可能作为流程节点的问答对以及可能的节点类型，通过人工审核并完善扩充，最终完成一个业务场景的语义知识流程构建。

在实现以上描述的过程中，李波表示，用户准确意图的获取一直是个大难题。

因为，在多轮对话过程中，用户回复很有可能超出场景预想的范围，以多轮对话场景、指令性场景以及场景为例。

首先，在一个购买手机的多轮对话场景中，当询问手机型号意向时，用户对某个型号并不熟悉，这个时候用户的回复可能不是一个具体型号选择，而是咨询型号具体的相关信息，在得到相关信息后，继续进行之前上下文场景的型号选择。这个过程，小 i 主要是通过一个“场景挂起恢复”的机制实现。以上述例子来说，当用户在咨询型号相关描述信息时，小 i 通过挂起当前上下文场景，切换至语义场景或其他上下文场景进行意图定位，满足条件后再恢复原来的上下文场景，使得多轮对话可以继续进行。其中，挂起的触发条件主要是用户输入无法满足当前场景期望，同时用户输入又可以定位其他单轮或多轮意图；而恢复的触发条件是用户输入可以满足被挂起场景的期望，当然也会存在诸如“进入语义场景或其他上下文场景的细节条件”，“如何避免递归挂起”等问题。

其次，在指令性场景中，很多时候机器人会答非所问或者无法精准理解用户意图，主要有两种情况：第一，用户输入缺少部分 Slot，如“打开卧室的窗帘”这个意图，当用户直接说“打开窗帘”时候，由于没有提供“位置 Slot ”就有可能答非所问；第二，用户输入包含多个意图，如“10 分钟后关闭电视和空调”，这个描述实际包含了两个意图，其中“时间 Slot ”和“动作 Slot”属于共享的成分，这个时候也很容易造成答非所问。面对这种场景，小 i 机器人针对指令性场景通过槽位反问技术、多意图理解技术等来改进。例如，第一种情况，通过对缺失的 Slot 进行反问用户避免答非所问；第二种情况，通过多意图理解技术分析出共享成分，同时填充到两个意图的 Slot 中，进而达到用户最终意图的理解。

最后，在智能客服的场景中，当通过结构化知识无法获取答案时，机器人会做出启发式响应，即通过在非结构化知识中尝试性地获取答案。其实现原理主要基于 Gated-Attentive 阅读理解模型与 Community-Search 的混合知识生成技术，由于技术成熟度缘故，其精准性目前还比较低。为了保障答案的精准性，小 i 在很多方面做了优化，如在模型的 Feature 中加入了标点、字体等信息，再比如通过一些预定义的规则合并模型的输出，此外还会通过人机协作的方式来提供精准回复。

3三大核心能力， iBot 开放平台赋能开发者

据李波介绍，如今，具备小 i 机器人 AI 能力的 iBot 开放平台已经集成了 Chatting Bot、FAQ Bot、Discovery Bot 三大核心能力以及文本分类、文本聚类、文本摘要、语音识别、OCR 等基础能力。为加速智能应用的场景落地，平台已支持智能客服场景的直接使用，并为企业和开发者提供智能机器人服务 + 人工在线服务 + 智能人机协作学习构建知识的完整使用闭环。除智能客服场景外后续平台将陆续开放智能营销、智能硬件、智慧医疗、智能办公等多种不同类型的应用能力。另外，企业和开发者还可通过标准接口获得各类定制服务。

具体到每一个核心能力，李波也对其进行了详细的解释：

Chatting Bot 指闲聊和开放式对话的能力，通常用户没有明确意图，机器人也没有标准答案，答案希望能够相关性好，趣味性高。技术上应用了最新深度学习算法，包括基于多层 RNN的Seq2seq+Attention+beamsearch 等。
FAQ Bot 提供了常见问答的精准语义理解和多种问句的自动泛化能力，通过深度结合自学习的自动化模型 + 人工表达式的方式，读懂用户同一个意图的多种问法，在专业领域范围内实现语义理解和准确回答。其中，针对问句自动泛化能力，小 i 主要存在三种类型的泛化：第一、模型自身的泛化能力；第二、知识库的语义泛化能力；第三、通过问句生成算法显式推荐并人工确认的泛化能力。

李波进一步解释说，这是通过预置于平台的知识库和机器学习模型实现的，用于扩展问句的知识库的知识类型主要为小 i 自研的“抽象语义”形式，通过”抽象语义识别模型“将用户问句定位到具体的“抽象语义”，再通过“抽象语义生成模型”进而生成出对用户问句问法扩展的问句，最后再提交给人工确认。
Discovery Bot 是指对用户问题的启发式响应回答能力。对于用户问题如果 FAQ Bot 和 Deep Bot 无法提供匹配的答案，则进入启发式响应回答环节。启发式响应环节的数据来源广泛，包括非结构化的文档，内部积累的数据，用户历史日志，外部抓取数据等等，基于非结构化数据获取多个答案候选，排序后如果置信度较高则直接返回给用户，置信度低的答案会结合人工审核或者直接人工介入回答，同时该问答也会进入知识库，进一步累积数据。