CIIS2018演讲实录丨王昊奋：智能问答在企业计算中的机遇与挑战

会员服务 ·

CIIS2018演讲实录丨王昊奋：智能问答在企业计算中的机遇与挑战

2018 年 12 月 12 日 中国人工智能学会

由中国人工智能学会主办，广州易间网络科技有限公司承办的2018第八届中国智能产业高峰论坛11 月17-18日在成都完美收官，论坛在两天的会议里带来了多场精彩报告。

此次小编为大家整理的是来自上海乐言信息科技有限公司CTO王昊奋主题为《智能问答在企业计算中的机遇与挑战》的精彩演讲。

王昊奋

上海乐言信息科技有限公司CTO

以下内容根据速记进行整理

经过王昊奋本人校对

企业计算是一个新名词，它有四项优势：第一，降低成本；第二，提高效率；第三，增加营收；第四，保障安全。

从典型的应用来说，首先是市场，企业计算在市场方面能增加潜在营收。市场比较关心的，一方面是受众和渠道的获取，即在客户留存和增加黏度这些方面如何提升；另一方面是内容的优化，即如何刺激大家冲动消费，真正提升客单价。常见的如信息流中的头条或者短视频网站，它们会结合用户本身足迹的数据，推荐一些热门的或者用户感兴趣的内容，这就是“猜你想”消费。

另一个应用是客户服务，传统方式的人工客服是一个劳动密集型+知识密集型的工作，人工客服流动性非常大，客户满意度不高。举个例子，“双十一”大家会问各种各样的问题，其中很大一部分是机械重复的，还有很多没有经过充分培训很难给出准确解答。现在出现了越来越多的在线客服平台，包括钉钉、旺旺、微信小程序等，传统服务模式受到冲击，新型服务向自助或者在线式转型，企业计算在客服领域能降低成本、提高效率。

再就是风险管控方面的应用，主要包括风险回避和损失控制等；也涉及一些反欺诈的识别，比如信用评级和评估，如芝麻信用就是作为互联网的指针，衡量用户信用情况的应用。

企业计算应用广泛，市场潜力巨大。对比中国2B市场和美国2B市场：占比方面，美国2B公司密度和营收情况接近40%，而中国仅有10%；公司方面，2C巨头美国有FAANG，中国有BAT，2B巨头美国有估值和市值百亿美金以上的IBM、MICROSOFT，但中国没有。2B是一个巨大的市场，这其中既有很大的机遇，也面临不小的挑战。

我们觉得有很多事情可以去做，搭建了一套智能咨询服务平台。我们不把它称之为问答平台，问答是偏技术的说法，业务人员不懂什么叫问答，我们叫做智能咨询平台，咨询是服务层面的。这个平台面向外部用户和内部用户，是一个2B结合2C的模式。通过赋能B端用户，提高C端服务质量。

面向外部用户，比如这个东西卖给谁？目标用户是谁？面向内部用户，比如，销售人员需要关心市场动态和发展趋势，业务人员需要知识采编审阅用于内部培训和交流，运营人员需要收集反馈和优化操作，我们都可以提供相应的辅助。为了实现这样的2B结合2C的模式，需要建立相应的知识库，主要从用户端、行业理解、企业内部业务系统三个方面对接输入，而后进行知识的获取，以及动态的跟踪和监控，这个过程中内部数据和外部数据要综合使用。

我们把这个平台的技术概括成两个引擎，第一，知识学习引擎；第二，语义理解的引擎。这其中人机协同也非常重要，2B行业的准确率要求接近100%，纯靠机器是做不到的，需要让人能更有效地参与，更好地贡献知识。阿里提出AI训练师，他与我们普通意义上的标注人员又有什么区别？这需要好好思考。

我们在企业计算的切入点是智能咨询，希望做的本质的东西是智能问答。智能问答有很多范式，2011、2012年出现了很多开元的知识库和吸引眼球的尝试，现阶段任何一项技术，都有其天花板及适用性，在一个技术不能打遍全场的情况下，需要有多引擎的问答，下面会具体讲解IRQA、KBQA和MRCQA的问题。我们会有三种类型数据，第一，文本数据，包括很多政策、法规的数据；第二，问答对数据，这类数据是相对容易获取的；第三，知识图谱数据，这类数据比较结构化。

问题生成本身非常零散，不是通过问答文本表述出来的，可以通过一定方式去生成所对应的问题，因为它的答案相对固定。另外，在真正使用智能问答时，需要综合考虑数据来源、数据规模和构建成本等方面。

从技术形态来看，基于知识图谱的问答就是KBQA，其中既包括传统的静态知识图谱，也包括各种各样事理图谱，剩下就是IRQA的内容，FAQ的部分是包含在IRQA里的。还有一些文本更适合MRC即机器阅读理解的方式。我们希望做到精确回答垂直领域的问题，但是这需要在本身的准确率、覆盖率，以及用户体验等很多方面做综合考虑，所以数据的来源，或者知识本身的形态会多种多样。我们希望更加友好的、直观可以判断的技术能够更好嵌入，来满足多引擎的需求。

以基金行业为例。IRQA的来源主要是业务人员积累的FAQ。例如，“申购基金什么时候确认呢”，这个的标准问答是“基金申购何时能够确认”。KBQA，比如“你们公司有几种货币型基金”，需要对用户的查询进行语义解析，并在知识图谱中查询推理得到答案。MRC，比如“开放式基金价格由什么因素决定”。我们做的MRC与现在流行的阅读理解比赛相比的区别是需要更往前一步，首先要知道用户的问题对应的是哪个或哪些文件；然后再进行文档检索、段落检索；最后是阅读匹配。

各种问答形态和技术不是孤立的，多引擎的问答会进行融合。IRQA擅长高频问题，数据要求是FAQ数据中存在和用户问题配对的FAQ，它的答案是静态存储的。KBQA需要非常正确的解析用户本身的问题，需要知识库里包含这些知识点。这些知识点不能是孤立的，需要有相应关联。MRC和IRQA的区别不是很大，它的好处在于减少了结构化的成本，而且生成的答案是动态的、粒度更加精细。

问答引擎是针对一问一答，要最终实现多轮对话，还需要相应的对话引擎。对话引擎主要涉及对话策略跟踪、对话策略学习等方面。IRQA会分成在线部分和离线部分。在线部分会转换多阶段的问题，第一阶段会使用搜索引擎做检索，而后是精排和筛查。很多时候仅仅得到一个排名结果是不够的，所以我们额外增加了一个部分筛查。离线部分需要对FAQ数据建立粗排索引，通过挖掘领域词和句式，运用生成方式，结合人工标注，如加噪等方式建立精排和筛查模型。第一步粗排模型非常重要，略过粗排这个步骤直接进行精排，结果往往不尽如人意。我们希望在更小的侯选空间里进行建模，这可以有很多的手段。一种手段可以是完全利用深度学习的方法去做，但现在更多是用一些整合的方式。基于IRQA有几种不同的模型，一种是面向表示的建模，这种端到端的建模比较简单，它的问题主要在于对数据的要求比较高，不适合冷启动，可解释性和可干预性也比较差。我们的创新在于从可解释的角度做特征工程，知识特征包括领域词之间上下位关系，还有对应的句式的内容，同时也会有通用领域训练、关系的迁移刻画等。

KBQA也是分成在线部分和离线部分。在线部分主要是问题的理解，问题理解之后有语义解析和执行回复生成。语义解析可以基于模板，通过语义理解可以转换成所对应的一些标注内容，将数据库存储的信息做转化和加固。除了人工撰写模板，也可以通过机器学习生成模板，然后人工进行审核。我们需要设计规则来生成标准问法，这是拓扑结构上的问题。问题匹配不到，或者匹配到的回答过于抽象，结果都是不能执行，都会影响召回率。乱回答会产生很多噪声，机器基于侯选级去做相应的计算，在这个过程中会用到单指令多数据的并行优化。

MRC比较简单。MRC是IRQA在最后一步精排和筛查里用了阅读理解模型，前面很多步骤和IRQA一样，只是具体匹配到的内容存在差别。本身文档或者段落的匹配，更像传统IR的任务，后面比较复杂的精细化模型都是通过表示层、输出层来做。MRC可以在反馈前对答案进行一定精简，给用户一个更智能更友好的体验。

前面提到了很多次语义解析，语言理解包括实体识别和链接、答案类型判断等，这里一个是意图理解问题，一个是双向序列标注问题。回复生成也会考虑很多内容，它是生成和回答相结合的内容。多轮对话的模式设计中，需要重视多用户管理和分发的问题。

具体的工程实践主要是四块，第一是数据收集；第二是模型更新；第三是上线发布；第四是反馈收集。数据获取通过技术层的领域词挖掘、数据标注和审核，针对不同类型的数据服务有不同的任务。模型更新包括领域的适配、索引的更新，以及数据的优化。智能导航包括热点问题推荐，另外还有一些相关实体问题推荐。反馈收集包括平台训练模型更新、日志更新等问题。另外还会有交互设计，其中导航的点击，以及对答案的采纳程度等都需要关注。在此之外，我们还会去做请求负载均衡、数据存取分流、服务质量控制等这些任务。

做智能问答，最希望做到拟人；第二是智能；第三是精准，希望精准度达到99%以上。我们的成效在于帮助企业节约人力，改善结果，提高转化率。目前在电商客服领域，每天服务300~400万人次，2018年“双十一”当天服务了2 366万人，创造了新的高度。我们希望“引领认知智能，跃升人类知识工作”不仅是一句口号，而是真正地去赋能企业，提升全人类。

CAAI原创丨作者王昊奋

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会

登录查看更多

相关内容

王昊奋

关注 0

王昊奋，同济大学特聘研究员，博士生导师。长期在一线人工智能公司担任CTO之职，拥有前沿科技视野及丰富的研发管理经验，荣获徐汇区学科带头人人才计划。他是全球最大的中文开放知识图谱联盟OpenKG发起人之一。他负责参与多项省部级AI相关项目，发表100余篇AI领域高水平论文，被引用次数达到2300余次，H-index达到23。他构建了全球首个可交互养成的虚拟偶像—“琥珀·虚颜”；所构建的智能客服机器人已累计服务用户超过10亿人次。目前，他担任中国计算机学会术语工委副主任，SIGKG主席，中国中文信息学会语言与知识计算专委会副秘书长，上海交通大学AI校友会秘书长等社会职位。

《人工智能2020：落地挑战与应对》56页pdf

专知会员服务

197+阅读 · 2020年3月8日

2019年人工智能发展白皮书，中国科学院大数据挖掘与知识管理重点实验室，附47页pdf

专知会员服务

162+阅读 · 2020年2月27日

【大数据白皮书 2019】中国信息通信研究院

专知会员服务

138+阅读 · 2019年12月12日

【斯坦福&Google】面向机器人的机器学习，63页PPT

专知会员服务

26+阅读 · 2019年11月19日