专访腾讯钟黎：知文团队在智能问答系统方面的探索

2018 年 7 月 30 日 雷锋网

▲点击上方雷锋网关注

文 | 思颖

来自雷锋网（leiphone-sz）的报道

对于刚刚成立的腾讯知文团队来说，过去是收获颇丰的一年。虽然成立尚不足一年，但这一团队已在 AAAI、IJCAI、SIGIR、EMNLP、COLING 等顶会上发表数十篇论文。

知文团队隶属于腾讯 SNG 数据中心，服务和支持着包括腾讯云、QQ、QQ空间及相关产品和业务。这一团队目前的研究重心在自然语言智能交互，围绕智能交互的内涵和外延，团队的学术研究涉猎广泛，包括但不限于问答、对话系统、文本摘要、知识图谱、机器阅读理解等。

据知文团队负责人钟黎介绍，知文核心算法团队在 15 人左右（hiring!），此外还有若干产品和工程职位。钟黎目前主要负责知文智能产品（包括智能对话、智能问答、智能搜索等）的研发和落地，此前他曾在软银AI Lab、微软亚洲研究院、IBM 研究院（新加坡）从事人工智能与机器学习的相关研究工作。

围绕知文团队目前的发展以及在 NLP 领域中的心得体会，雷锋网对这位腾讯高级研究员进行了独家专访。（凭借此次专访，腾讯知文团队在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中增加 8 分。）

此前，他在由雷锋网承办的 CCF-GAIR 大会上谈到建设业界问答系统的一些心得体会：

第一，要重视 Baseline。

第二，尽早建立起整个流程的 Pipeline。

第三，没有免费午餐定理，不存在万能算法。

第四，领域相关的数据准备、数据分析非常重要。

这些建议给大家带来了全新思路，而在专访中，钟黎进一步围绕 NLP 的发展与难点，全方位展示了智能问答平台的打造之路。

钟黎表示，在打造智能问答平台中，一个主要的难题是领域迁移。提到解决方案，目前他们希望先打造通用、多领域多任务、自动学习的智能问答平台，让新的业务、新的场景、新的领域能够以较低的成本和门槛迁入进来，然后再提供一系列方法和工具，帮助做领域的定制。

对于 NLP 技术在腾讯的重要性，他表示，目前 NLP 已经为业务带来了许多价值。但是，自然语言处理和理解本身是非常困难、非常复杂的领域，理解语言不仅涉及感知层面，还涉及认知、推理、知识、演绎，语言背景还和文化、历史息息相关。从这一点看，语言理解技术还在早期，还需要我们以更多的坚持、耐心，一点一滴去突破。

以下为雷锋网对钟黎的采访内容，做了不改变原意的编辑整理。

问：你的 NLP 研究经历如何？你是从大学就开始这一研究吗？

答：其实不是，我最开始的经历和视觉相关，后来又转到推荐，再之后又研究机器人、语音。语音其实也是 NLP 的一部分，但它跟 NLP 又不太一样。我是来到腾讯才开始做纯 NLP 研究。

基于过去较为多样的研究和实践经历，现在在做 NLP 任务时，我更多地会思考这些任务之间的共性，会尝试一些其他学科的研究工具、经验和知识能否有助于解决当前的问题，相对于完全 NLP 背景出身的研究人员来说，我觉得这也是自己的一个特点。

对于我们这一团队来讲，更多地是要考虑到更加复杂的生产环境、业务场景以及实际问题，就像前面提到的学科交叉，如果具有多学科交叉背景，其实会更有优势。

问：结合你此前的工作经验，NLP 技术在落地上经历了怎样的发展历程？

答：NLP 技术其实在企业界的应用非常早，例如在 PC 时代，搜索是最早把 NLP 技术作为核心技术的应用之一。我此前做过推荐、人机对话、语音识别，这些研究都涉及到 NLP 的一些应用。

它在工业界的落地上，会有这样几个历程：首先还是问题和数据驱动，先出来了一些实际问题，比较适合用NLP相关的技术去解决，然后在这些问题里，我们再去提炼比较具有共性的一些方案，把它从业务逻辑里抽离出来。

问：你提到此前的三个方向，一是推荐，二是人机对话，三是语音识别，这三个方向各自的难点在哪里？

答：这三个方向都是很大的领域，有很多的难点与挑战，这里仅仅简单提及一下。

在推荐里，基本需要做到内容（物品）理解，用户理解，场景理解，并且还要做好三者的关联。这里就仅提下内容理解的难点，内容有两点特征：

第一，多模态内容的融合，可能不光有文本内容，还有视觉内容，实时地处理这些多模态的数据会有些挑战。

第二，内容更新很快，时效性很短，所以必须要挖掘出最新的热点、事件，但想利用 NLP 技术完全自动地去发现热点话题、事理图谱也比较难。

人机对话是我们现在做的核心，难点也非常多。这里最大的问题在于我们并没有实现真正的智能。机器本质上还是数据驱动的算法模型，需要大量的数据来进行训练。数据和模型其实是受限于领域的，一旦做领域的迁移，可能就做不好了。所以在对话里，如何做好领域的迁移，我觉得这也比较难。

谈到语音识别，其实近场语音做得很好，但如果是远场，比如说收集器在比较远的地方，然后又是多人对话，语音有重叠，这就会涉及到很多问题，比如语音分离，识别谁是说话人，另外，多人会话比较嘈杂，信噪比比较低。远场语音可能还涉及回声消除。现在远场语音还比较难，也是目前重点的研究方向。

问：这些学科之间有哪些共性？

答：举个例子，语言模型这一工具在语音里其实用得比较多，因为我们研究语音的时候，是用语言模型来判断转移概率，当然语言模型在NLP里也用得非常多。另外，谈到推荐的架构，推荐有好几层，有召回、重排、精排等，这一架构其实跟 NLP 里搜索的架构有些类似。所以这些技术会有一些共通点。

问：深度学习的发展会促进 NLP 的发展吗？

深度学习更多是一个工具，它在 NLP 里也取得了很多进步，但相对来说还没有到一统天下的程度。在今天（腾讯知文团队负责人钟黎：从 0 到1 打造下一代智能对话引擎 | CCF-GAIR 2018）讲到的模型既有深度学习模型，也有非深度学习模型，还涉及到很多比较简单的模型。

我之前也提到了，没有完美的模型，在实际运用的时候，一定要找到适合数据和场景的模型。深度学习并不是万能的，最重要的是理解问题和数据。

问：从技术的曝光度和产品的落地情况来看，NLP 离计算机视觉还存在一定距离，这其中的主要因素是什么？

答：这个问题和之前有些相似。语言本身有它的复杂性，最简单的例子，图片的基础存储都是像素矩阵，美国的图片、中国的图片、日本的图片的基本表示都是一样的像素点，动物的图片和飞机的图片基本表示都是一样的像素点；然而在语言里的情况要复杂很多，没有 universal 的表示、没有 atom unit、本身具有先验结构、需要外部语境与知识。这些困难使得 NLP 在应用上和视觉有些差距，但目前应该是有越来越多的落地了。

问：知文团队近年来的发展路径如何？挑选研究方向的主导因素是什么？

答：虽然知文团队成立尚不足一年，但此前在 NLP 方向有诸多探索和应用。对于业界的 NLP 团队来说，我们的研究方向更多是问题驱动型，首先是解决业务技术难题和挑战，在众多的业务需求中，提炼共性，抽象成更为广泛的课题，再进行深入的研究、探索，最后将成果反哺给业务，产生更大的实际价值。

问：知文团队在多个学术顶会上都有论文被录取，目前这一团队与哪些高校有着合作？与高校的合作主要集中在哪些研究领域？

答：我们和 MIT、ETH、哥伦比亚大学、中科院、北京大学等高校均有一些合作，目前合作研究领域也是围绕知文团队的研究重心而展开，以自然语言智能交互为核心，包括问答、对话、机器阅读理解等。我们同时也希望进一步加深同海内外高校的合作和交流，我们有丰富应用场景、来自业务一线的难题和工业级大数据，希望能携手学术科研机构，一起促进产学研的联动和落地。

问：目前在打造智能问答平台的过程中，从技术和落地上来看，面临的主要难点有哪些？

答：难点还是不少，这里列举一些：

第一，领域迁移问题。从业界的经验来讲，有效融合领域相关的知识、经验和数据，往往比算法优化能够带来更显著的提升。但领域迁移涉及到数据、模型和架构的迁移，特别对于定制化要求较高的领域，目前还是很难做到规模化。我们现在希望先打造通用、多领域多任务、自动学习的智能问答平台，让新的业务、新的场景、新的领域能够以较低的成本和门槛迁入进来，有一个较好的 warm-start，然后再提供一系列方法和工具，帮助做领域的定制。
第二，问答分为多种类型，比如说任务型、寻求信息型、聊天型，但想要判断用户问题的类型并不是那么容易，问题的分界没那么清晰，需要对真实的意图、背后的语境有较好的把握。
第三，如何构建垂直领域的知识图谱。目前数据很小，用自动化的方法去构建垂直领域的知识图谱会出现很多错误，可能需要人工构建。
第四，问答、对话其核心都是语言的交互。既然是交互，多轮会话是难以绕开的问题。在单次会话时期中，让机器学会适当的反问，获取更多的信息来完成对话，也是目前的热点研究方向。

问：互联网上的数据很多都是视觉与文本信号共同出现，譬如腾讯视频，不仅有视频信息，还有音频信息以及相应的字幕、评论和弹幕等，你们团队是否有将计算机视觉与 NLP 相结合的交叉性研究？你如何看待这些学科的交叉发展？

答：image captioning、video question answering、multi-modal/cross-media search 这些都是跟我们非常相关的领域，事实上知文团队在 CIKM2017 上就有篇基于对偶学习做 image captioning 的工作。

在实际的业务场景中，学科交叉是非常普遍的现象，现在大量的业界数据都是多模态数据，能在业界实用的工作，一定是充分融合了各个学科的技术，充分挖掘出多模态的信息。

此外，学科间的交叉融合也能带来新的创新和突破，例如 CNN 是视觉领域的基础网络，但目前 NLP 领域基于 CNN 的工作也非常普遍。知文就在 IJCAI 2018 上发表了一篇基于 CNN seq2seq 做文本摘要的工作。

问：接下来的研究重心会放在哪里？

答：还是会放在自然语言的交互，包括之前提到的一些难点，我们会不断探索更好的解决方案。

例如迁移是其中一个需要解决的重点，还有非结构化问题也是我们要处理的挑战之一。另外，怎么让回复更加自然、人性化，让机器学会问问题，这些都是需要探索的问题。

要解决的问题很多，未来的路仍然很长。

问：NLP 在腾讯有哪些典型落地场景？你对哪一个场景最为看好？

答：NLP 在腾讯有着丰富而广泛的落地场景。例如，在社交方面，腾讯使用 NLP 技术进行热点和话题的挖掘和发现；在通讯方面，腾讯使用 NLP 技术进行各类服务的唤醒，使用户的体验更便捷；在内容方面，腾讯使用 NLP 技术进行千人千面的内容推荐；在企业服务和云方面，腾讯知文使用 NLP 技术打造智能问答平台，帮助企业降低人力成本，提升客服、营销的效率。

我非常看好知文团队一直深耕的自然语言智能交互场景。搜索是 PC 时代的流量和服务入口，它是中心化的、寡头的。自然语言的智能交互将会是 AI 时代的最重要入口，它是分布式的、去中心化的，每个设备、每个企业、每个用户都会有自己的自然语言智能交互入口。这是从铁器时代走向蒸汽时代，不仅是互联网和商业模式，它将会给全社会、全人类带来影响深远、深刻的变革。

问：从战略层面上看，目前 NLP 技术在腾讯处于什么地位？

答：NLP 技术在腾讯的应用已经很广泛、很久远，为业务带来了许多价值，是非常重要的基础技术地位。但是，正如前文中提到，语言处理和理解本身是非常困难、非常复杂的领域，需要联系实际业务场景、业务数据，才能发挥更大的价值。近年来可以看到，NLP 技术在腾讯各个业务上多点开花，百花齐放，知文也非常幸运身在其中，贡献自己的力量。

问：学术界和工业界需要如何做，才能促进 NLP 的稳步进展？

答：知文团队非常希望能够进一步加深和海内外高校和学术结构的合作和交流，我们有来自业务一线有趣、有挑战、有意义的课题、有丰富的应用场景、有工业级的大数据，希望能够携手学术界的教授专家们，一起来促进 NLP 产学研的联动和落地。

- END -