NLP尖峰对话：京东AI总裁周伯文对话斯坦福教授Manning

2019 年 11 月 5 日 新智元

新智元报道

编辑：张佳

【新智元导读】10月31日，北京智源人工智能研究院在国家会议中心召开北京智源大会，会议汇集几十位国际顶尖AI学者和专家，共同探讨AI最新的学术进展和产业趋势，并展示AI科研、产业的最新成果。会上，周伯文博士与Christopher Manning教授就人工智能前沿技术发展、NLP领域的产业融合等内容展开尖峰对话。快来新智元AI朋友圈与周伯文等AI大咖讨论吧～

2019年10月31日，北京智源人工智能研究院在国家会议中心召开北京智源大会（BAAI Conference），会议汇集几十位国际顶尖AI学者和专家，共同探讨AI最新的学术进展和产业趋势，并展示AI科研、产业的最新成果。科技部副部长李萌、北京市副市长殷勇出席开幕式并致辞。北京市科学技术委员会、北京市经济和信息化局、海淀区政府、朝阳区政府等部门相关领导出席了大会。

科技部副部长李萌

北京市副市长殷勇

本次大会群星闪耀，汇聚全球顶尖AI专家。包括中国科学院院士、智源研究院学术委员会主席张钹，图灵奖获得者、智源研究院学术委员会委员John E. Hopcroft，中国工程院院士、智源研究院学术委员会委员高文，加州大学伯克利分校教授、智源研究院学术委员会委员Michael I. Jordan，京东集团副总裁兼京东人工智能事业部总裁，京东人工智能研究院院长，智源-京东联合实验室主任周伯文博士，加州大学洛杉矶分校教授、智源研究院学术委员会委员朱松纯，斯坦福人工智能实验室（SAIL）负责人Christopher Manning，中国工程院院士戴琼海，清华大学类脑计算研究中心主任施路平，香港科技大学教授、IEEE Fellow杨强，伊利诺伊大学香槟分校（UIUC）计算机系教授翟成祥，哈佛大学统计系教授、美国国家科学院院士、现任清华大学丘成桐数学科学中心教授Donald B. Rubin，以及康奈尔大学计算机科学系及信息科学系教授、SVM-Light、SVM-Rank作者Thorsten Joachims等专家学者出席大会。

周伯文博士与Christopher Manning教授展开尖峰对话

京东人工智能事业部作为此次大会的合作伙伴，邀请到全球深度学习自然语言处理（NLP）领军人、斯坦福人工智能实验室（SAIL）负责人、斯坦福教授Christopher Manning参加，并与京东集团副总裁兼京东人工智能事业部总裁，京东人工智能研究院院长，智源-京东联合实验室主任周伯文博士在开幕式上就人工智能前沿技术发展、NLP领域的产业融合等内容展开尖峰对话。现场Christopher Manning教授还受聘成为北京智源-京东跨媒体对话智能联合实验室的专家顾问。

Christopher Manning教授受聘成为北京智源-京东跨媒体对话智能联合实验室专家顾问

以下为摘取的对话实录(翻译自现场英文对话实录)：

周伯文：我们对话的第一部分会谈语义、语境和知识。我选择这三个词是因为它是来自于Christopher 2015年在《科学》杂志发表的文章。

第一个问题，Chris，在您的论文结论部分，你写到 “如果语义学、语境和知识方面真正的难题、难点得到解决的话，需要在语言学和在推理方面有一些新的突破“。现在四年多已经过去了，根据我们已知的最近的NLP进展，您对四年前的阐述，现在是否要做一些调整？

Christopher Manning：这是一个非常好的问题。我的答案是确实已经出现了一些变化，但有些没有变化。一方面，关于人工智能我的看法是，并没有取得那么大的进展，目前还没有办法使人工智能像人类那样去建模去利用知识和语境。另外一方面，要承认在过去几年当中取得了一定的进展，思维方式有了一些变化，在过去几年中我们看到，去建立新的深度学习神经网络系统，可以更好地去系统建模，这增强了我们的一些能力和知识，确实在这些方面有一些进展。

其中有一个例子，有一些传统AI人士，他们曾表示可以通过对知识和语境来建模来解决一些指代消解的问题。有一个好的关于理解语境和知识测试任务是类似于在一个行李箱当中有一个小的雕像，然后系统去推断出语言中的“它”指的是小雕像，而不是行李箱。现在基于深度学习系统已经在诸如此类任务上取得了一些突破，并且效果非常显著，我也相信在接下来的五年当中，深度学习还有很多提升空间，以及更多重大的发现。

周伯文：今天早上我和Christopher Manning在聊天时，我们都觉得2014-2015年是自然语言处理领域和深度学习结合的一个转折点。2014/2015年我在IBM Research工作，从纽约去Montreal拜访Yoshua Bengio，Yoshua和MILA的研究者们和我们交流最新的一些研究。Yoshua和他的博士后Kyunghyun Cho(他目前是NYU的教授)特别向我介绍了他们在神经机器翻译方面的一些最新的进展，第一次用最直接的编码器-解码器做翻译。我一开始的反应是，这个机器翻译模型有缺陷，因为没有明确学习对齐（alignment）词语的重排序(reordering)问题。我和他们讲了我们在统计机器翻译中，如何利用无监督学习到的SCFG去解决这个问题。Cho当时确实说他注意到他的模型在长句翻译上有很多问题，他会重新考虑重排序问题。他最后确实是找到了一个非常聪明的方法，是一个注意力模型。这个模型就是大家今天非常熟知的注意力机制，最终帮助神经机器翻译达到了业界最领先的水平(state-of-the-art)。

当我们回过头来看，注意力机制其实是一个巨大的进步。今天注意力机制不仅可以用于机器翻译来对对齐模型建模，可以用于句法分析的结构建模，还可以用于NLP中的上下文建模，等等，可以用于很多任务中，以至于Google的Transformer论文的标题都是”Attention Is All You Need”（这篇论文的第一作者Ashish曾经作为我的实习生和我在IBM Research一起工作过一个夏天，非常聪明的一个年轻人）。但是回到我们的话题语义、语境和知识，您是否同意”Attention Is All You Need”? 我个人认为注意力机制是过于复杂的，为了获得有效的注意点，需要大量的计算能力，在不同的layer，计算multi-headed attention。对于这个问题您是怎么看的？是否只需要注意力机制就足够了？还是要考虑其他的方法？

Christopher Manning：我觉得我们应该开放地探寻其他的方法。注意力机制在大量语言任务中确实被证实非常有效，所以我不会投反对票。即便在我过去的一些工作中，也充分利用了注意力机制并且获得了很好的效果。但是我不赞同只需要注意力机制，我们需要一些更复杂的计算，例如大规模的记忆力，大规模的知识，以便我们能更好的理解语言。而现有的注意力机制在这些方面做的还不够，例如BERT只能局限于长度为512或者更短的句子长度，我们需要规模更大的记忆力机制去建模语言。除此之外，结合句子结构以及语言学的层次化语义合成性也是我们需要考虑的问题，我在过去几年也有过类似的工作，例如利用树状结构来学习句子语义合成性表征等。这些都是值得尝试的不同的方向。

周伯文：如果回顾一下，您会觉得我们自然语言处理在过去十年当中最大的成果是什么？最知名的成果是什么？

Christopher Manning：在过去十年，基于深度神经网络技术，我们在自然语言处理领域取得了很多举世瞩目的成就，可以关注到很多点。我觉得现在从某种程度上来讲，它的起源超过十年了。在世纪之交的时候，有很多的同仁，他们就提出词语可以用分布式向量表征，可以用来进行预测和建模自然语言，从而避免传统建模方法的维数灾难问题。在2013年的时候，当word2vec词向量模型提出之后，立马得到了广泛的关注和应用，现在已经变成了自然语言处理领域非常基础和流行的方法。

紧随其后的突破就是用于序列建模的编码器-解码器框架(Encoder-Decoder)的提出，这一模型可以广泛用于机器翻译、文本生成、对话建模、甚至句法分析等大量的NLP任务。目前序列模型已经成为了很多NLP建模中的核心方法。近2-3年，随着Transformer+Attention模型的提出，序列模型的能力变得更加强大。

在过去18个月中，随着一系列基于上下文的词向量建模方法的提出(例如Elmo等)，预训练语言模型成为一个新的突破，特别是诸如GPT-2、BERT、RoBERTa、ERNIE等强大的预训练语言模型的提出，证明自然语言理解其实可以通过从海量无监督文本中通过自学习得到，并且在一系列复杂的NLP任务中取得非常好的效果。

上面提到的都是深度神经网络在自然语言处理方面的一些突破。在语音识别领域，深度神经网络也取得了重大的突破。通过深度学习，我们可以更好的进行声学和语言的建模，从而使语音识别技术变得实用，以至于今天人们可以在各种设备上(电脑、手机)轻松的使用精准的语音识别的服务。这些都要归功于深度学习技术。

周伯文：我们知道每一个人都意识到BERT模型做出来之后，NLP会发生变化。我们会进行一些预训练的模型，然后在下游的任务上进行Fine-Tuning的分类任务，大家都觉得这是一个重大的竞争，特别是从它带来结果的角度上来看的确是一个突破。另外一方面，像张钹院士等一些杰出的研究者开始提醒我们要注意到深度学习的天花板。大家害怕仅关注深度学习，不关注NLP的一些根本问题。例如BERT出来之后，Pre-train + Fine-tuning成为了NLP任务的新范式，所有的一切NLP任务都可以简化为向量表征的学习外加下游的分类任务的模式识别。大家想一下，这是不是能更好地帮助我们达成对于语义、语境、知识以及对因果等推理学习的目标？

有很多人可能关注到最近的学术界的一些辩论，最近辩论的焦点是我们能不能利用深度学习网络模型，对因果推理进行学习呢？我觉得很多人的想法是，如果只是进行特征工程学习的话，再加上模式识别分类，可能是不足以帮助我们追寻到的最终的目标。我们需要在不同的方向有所发展，张钹院士这方面做了几次非常好的学术演讲，我认同他的观点。

在这个过程中可以深挖的还有很多，因为是非常炙手可热的辩论话题，但是我们没有任何一个人可以给予结论，所以我们再进行下一个环节的讨论。

接下来我想问Chris，您会觉得现在对于我们NLP最具有典型性、标志性的应用或技术是什么？我之所以要问这个问题，是因为您是不仅是NLP领域被应用最多的学者，您也积极活跃在其他领域。您是来自硅谷的斯坦福大学，实际上您支持了很多公司的创立，而且您有一些学生毕业后都自己在NLP和AI领域创业了，您也在一些初创公司的董事会里。因此，我觉得这是一个很好的和您讨论的话题。

标杆性技术或者应用，我先定义一下什么叫典型性呢？必须要有几个标准，其中第一个标准是当该应用取得了进步，大家都会马上会觉察到这是自然语言处理的进步。第二个条件是该技术和应用本身有很大的影响力，和进行商业化的巨大前景，能够在真实的世界当中得到大规模应用和部署，解决实际问题。这就是问您的问题，能够分享一下您的想法吗？

Christopher Manning：首先我给大家第一个是建议，第二个再给大家回答。从某种程度上来讲即便到今天，哪种技术通过多年的自然语言处理、机器学习、深度学习受益其中，然后技术解决了问题，取得了足够的进步。我会认为也许是机器翻译，在最近几年当中在我们的神经机器翻译过程中取得了很大的长足进步，所以我们看到了很喜人、非常明显的进步。比如说在之前以前是统计机器翻译，它的能力也得到了加强。好像有一些廉价的翻译系统，包括搜索引擎，都可以走进寻常百姓家庭，还有包括在2010年有全新的系统，我们将会用很多神经机器翻译和序列系统，并且把Transformer模型拿过来用。在这个过程中，发现机器翻译质量不断提高。

从质量角度来说，机器翻译是非常好的晴雨表来衡量行业中的技术发展变革。但是从它对社会产生影响的角度来讲，机器翻译影响社会的能力是有限的。比如说你在异国他乡不知道发生了什么情况，机器翻译会帮助你，而且它可能对商业产生积极影响。如果在日常生活过程当中，大多数人其实不需要机器翻译。从这个角度上来说，我会觉得有更好的答案，我们现在很多人都非常关注我们怎样能够用自然语言处理技术打造一个更好的对话的机器人呢？这种对话机器人的机制指的是你可以跟它说话，它能懂你说什么，然后给你回答、给您找到信息。比如你想买个服务，你提出一个问题它帮你搜索、帮你回答，这是更难取得进步的领域，这个领域很难取得进步。

但是我们逐渐看到越来越好的计算机对话系统，这个领域肯定在接下来会产生很大的经济方面的影响。能够有一些计算机可以非常智能，能够和人进行对话，像人的伙伴一样。

周伯文：我想展示一下我的观点，我们考虑自然语言处理的时候，其实包括了如这个PPT所示的很多层。有人会讲基础层，包括句法、语义，还有包括表征学习等等。其他人讲的是NLP的包括核心能力，括自然语言的理解，怎样生成自然语言，怎样对话，怎样去做一个多模式的推理或者互动。在这核心能力之上，可以看一下有很多的NLP应用提供给大家，而它们都会产生巨大的影响，它们的影响力对社会不容小觑。

在这页幻灯片的最上一层，今天之所以进行尖峰对话谈自然语言，就是因为我们深信不疑的一点：如果自然语言的人工智能起到我们预期作用的话，将带来人机交互技术驱动的万亿级的市场。

当我们看自然语言处理典型的技术和发展，我会觉得中间的核心能力层实际上都是实至名归，都应该被放在中间层。但是我自己可能会有一点偏见，我会觉得在最后两列放在一起来看的话，形成了一个我们叫做任务导向、多轮次、多模态对话的核心技术领域，这是很大的一个挑战。原因很简单，当你进行对话处理的时候要取得真正的进展，必须要让机器了解语义和语言，而且要了解人的常识，因为有一些言外之意，这些知识是在语境当中没有的。

大家可以看一下，如果作为一个智能的对话还要具备的一个前提，就是你必须要了解到情感，必须要知道这个对话的走向是什么，对话的目的是什么。换而言之，多轮对话还包含了一个序列性的连续决策过程，决策每一个对话应该说什么，如何理解，如何解释等；像AlphaGo一样，只不过你的规则是不明确的，而且你没有一个明确的边界。如果我们把多模对话加入其中，更丰富了对话的上下文，也加大了难度系数；比如怎么从一个模态学习到的知识转成另外一种模态的知识并进行融合，做更好的对话决策。大家想一下，从我们眼睛看到的东西转换成机器能懂的语言和其他形式，如果把两者结合在一起看的话，可以很好地提供底层技术包括代表学习、符号学习、语义学等等。另外一方面，会对下一代自然语言的理解有所提高。

目前我们在机器翻译和自动问题回答的研究当中，有时后很难判断我们是否真正在自然语言理解方面取得了进展。比如在机器翻译方面，翻译质量的提升更多是语言生成方面取得了进步，在原语言的理解方面实际上没有取得那么大的进步；但在多轮对话里，就更难跨过理解不到位的问题，因此要逼我们研究人员真正取得进步。除此之外，不依赖于语境的自然语言生成，也是多轮对话中必须要解决的问题？所以，任务导向、多轮次、多模态对话看起来一是足够有挑战，二是可以驱动各个底层技术、核心能力得到真正提高，同时又具有巨大的应用场景，是我们当前最标杆性的NLP挑战。

我同时也有数据支撑这个观点。大概三到五年前，机器翻译在ACL/EMNLP学术会议上是最主要的话题，最大的session room是给到机器翻译，大于50%的观众都会来听这个板块。但是从今年来看， ACL、EMNLP对话系统和机器翻译会有类似数量的论文出现，有60多篇论文分别来自这两个板块。

Christopher Manning：您讲的完全正确！关于这个话题，我可以回应的是非常多的，我这里只分享几点。大部分人工智能的研究人员都过多关注在个人的智能和智慧上，而忽视了对话和沟通对于人类智能的重要性。大家可以想一想人类的历史，在出现语言之前早期的人类和大猩猩是没有太大的区别，那个时候也可以提前做好计划去完成一些任务。

但是这并没有导向更多的智能，我们整个人类的进化都是在不久的过去实现的，在几百万年之前实际上人类是和大猩猩比较类似的，但是后来人类发展出了语言，进化就越来越迅速了，人们现在能够建立这样的网络、超级计算机，是利用人类的语言来进行沟通，在不同的人类大脑之中利用语言进行沟通。

一旦有了语言之后，我们就可以去计划一系列群体人类的活动，我们也可以在人类之间进行知识的传递，这给我们带来了非常多的益处。

早期的人类只能够像大猩猩一样使用一些简单的工具，但是现在人类是有非常复杂的语言。几千年前，在中国人们发明了文字，有了这样的书写系统，人们就可以把知识和信息跨时间、跨空间进行传递。这样可以进行知识的储存，就像计算机的内存一样。有了这样的文字系统，我们可以进行知识的传递，而我们现在可以用手机进行存储，一眨眼之间我们的技术就出现了这么大的变化。

当然这里还有一个非常大的问题，回到我们的主题，人类的沟通是非常缓慢的，人类的沟通不像是5G的网络那样，不像是现在计算机网络传输信息那样快。人类之间的沟通是很慢的，但是人类的沟通速度还是可以的，也非常有效。为什么呢？因为我们的沟通是不明确的，主要是取决于聆听者是聪明的人，他必须是要有一些常识，有一些共同的理解。这样的话我们只是说一些少量的词，他们就可以根据语境知道我们是什么意思。

在对话当中，我们要取得进展的话，必须要充分对于人们的常识和文本的理解进行建模，这也是人工智能的一个核心。我想在接下来的十年当中，我们要进行更好的对话的话，这样的对话系统不仅仅需要考虑到商业的使用性，而且也是我们要去改进人工智能技术所面临的一个核心的挑战。

周伯文：非常好！我们达成了一个共识，这会引出我们下一个发言的主题。如果我们这里有任务导向、多轮次、多模态对话，我们需要做一些什么去实现这样的目标？

Christopher Manning：我们确实还需要做大量的事情来共同实现这样的任务，进行任务导向性、多轮、跨模态的对话，我们可以看看这个任务的三个组成部分，目前都没有非常好的系统可以解决。实际上在现代学习的基础当中，还是有很大改进的空间，我们要去建造基于目标的对话系统。它只适合和对话人类设计的技能相关的，必须要知道目的是什么，我们进行手动对话状态树的描述，来驱动个人实现对话的目标。但是到现在为止，我们现在还没有建立这样的基于深度学习的系统。

这样的系统要了解我们的世界，要了解与之沟通的人，要去了解一个对话的局部目标。要以这样有机对话流程当中去了解这些，并不是很容易的。要更好地去了解语境、上下文，要了解在不同的情景下人们的目标，这些都是我们所面临的巨大挑战。我们甚至不明确如何去实现这样的目标，我不知道您是否有一些建议帮助实现这样的目标？

周伯文：我们确实需要做很多的努力，我完全赞同您的说法，关于理论上的分析，算法的进步，怎么样去学习，怎么样去进行对话，我们要从这样的语料库当中进行对话，吸取信息进行对话是一个很大的挑战。因为对话系统里面有很多组成部分，我们也不确定最好的对话架构是什么样的。除了这些，我们还面临另外两个挑战，首先是没有一个真正的语料库，这样的语料库要模拟人和人之间的沟通，我们需要建立这样的语料库也让机器去学习。基于目标导向的对话很重要，为什么呢？因为可以相对比较清晰地去让机器学会自动判断这样的对话是否是成功的，也就意味着对话是否满足了目的，目标是否实现了。比如说AlphaGo的目标就是要去赢得围棋的比赛，对机器学习来说，明确的目标非常重要，因为这里有非常多的结果，他要去了解这些参数。可能会有一些失误，但明确的目标会帮助我们把错误的梯度用反向传播的方法来学习系统的参数或结构。但是在研究方面我们是缺失这样的语料库，也缺失一些平台。我们需要这样的平台来帮助小群体的研究人员、大学研究机构的研究人员很快可以搭建高复杂度的端到端的对话系统，并以此来研究、验证、比较一些具体算法、模块提升的效果。

我想我们必须要做一些事情，来去解决数据的问题和平台的问题，使研究人员可以具有更大的创造力。我们和智源研究院建立了联合实验室，这也是我们要重点去做的。我们可以去共享语料库，我们现在有这页PPT展示的这样的最大的多轮对话数据库、语料库，是开源的，京东这个对话数据比我们在这个领域当中所看到的任何一个数据库都更大，有几百万个人与人的完整对话并有标注，有6000万个语句，还有3.2亿个词，所有这些都是开源的、开放的。

我们还有一个平台，有一些模组化的组成部分，针对一些对话的结构、语义、文本的分析等等，人们可以利用它去建造端到端的对话体系。他们可以有自己的创新，也可以对端到端的对话结果进行测评、进行测量。我希望我们现在能够去助力整个研究界的基础。

Christopher Manning：前面我们也谈到了阻碍对话研究方面的一个重要的障碍，就是缺乏数据。这在张幻灯片中看到有很多的语料库得到应用，主要是基于任务的对话系统，像DSTC对话、状态追踪。再比如机器翻译的对比，还有问答环节等等，对于他们来说是有着非常多的数据库可以去利用的，这样的话他们取得了很大的进展。所有这些让我们感到特别的震惊，非常的强大！可以推动新的发展。

确实相比其他数据集，京东的开源对话数据集已经领先了两个数量级，而不仅仅是一阶的程度，它非常强大！而且这样的体系影响力也是极高的，当然我们要感谢京东给我们提供了这些数据，他们也召集了很多学术人员和研究人员，他们可以充分利用这些数据。以前对于学术界人士来说，在对话方面开展工作的问题，主要就是公开的对话数据是很有限的。另外一方面可以获得一些翻译的数据，数据是开放的，非常有用。

当然在对话方面还是有很多的挑战，我们谈到必须要有目标，也谈到必须要去强化我们的学习。我们在人工智能方面，我们看到了基于游戏的系统，比如说AlphaGo。还有在机器系统当中也学到了很多，他们都进行了深层的强化学习，这是一种非常有效的学习方式和渠道。但是这里还有很多的挑战，除了数据之外对于深层加强学习，在自然语言对话方面还是存在着很多的挑战。

对话任务是非常不同的，是由于到目前为止这样的对话走向是非常远的。当我们进行翻译的时候，我们有多种方式来进行选择、进行翻译。但是这些选择也是有限的，我们必须在翻译的时候译文和原文尽可能接近。但是当我们去看对话的时候，接下来的对话引导的方向可以是多个的。你可以问一个客户他们在哪里经营，也可以问他们，他们的问题是什么。当有了问题之后可以马上提出解决方案尝试一下，对话接下来引导的方向是非常多的，即使我们有了海量的数据，我们要去这些对话接下来的走向也是具有很大的挑战。因此，我们必须要对这样的强化对话、学习来开展进一步的工作。

除了缺乏数据之外还存在着很多的挑战，在过去的几年当中也谈到了语言学习，谈到了我们应该在强化学习语境当中有更多通用的行为和能力。

周伯文：确实我们有了非常多的数据，但是要充分利用这些数据。现在我们有非常多的语句数据，希望AI系统在这些语料库当中进行学习，我期望通过强化学习的训练，这些数据也可以帮助进行机器间的模拟对话，以便能够生成更多的数据，这样他们可以进行更好的训练，以及这样的迭代。

以上这些就是我们对话环节的内容。我还想在这里代表整个NLP领域问Chris一些问题。深度学习利用大数据去解决NLP任务取得了很多的进展，但是对于无资源或者少资源的NLP任务，我们应该怎么去做呢？有什么技术突破的方向吗？

Christopher Manning：确实大数据源是非常友好的，在深度学习方面起到了很大的推动作用，有很多的案例。我们看到深度学习取得了长足的进展，比如说机器翻译、AlphaGo等等。在这些领域当中，探索利用了大量的数据。我想我们现在开始看到了一些发展，他们可以利用一些小量的数据取得进展。比如说预训练的流程，比如说对BERT进行培训，我们可以有很多的数据就一个任务来进行预训练(Pre-Train)，或者去了解了语言和通用的语义之后，接下来可以让他们去利用一些小量的数据做微调(Fine-Tuning)从而完成一些任务。

在小数据的应用方面，我们也看到了一些成功。人们可以从一种语言向另外一种语言进行支持的预测，有一些非常好的语义的表征可以进行跨语言的映射。比如说谷歌有多语言翻译的体系，他们可以很好地去预测语言之间的状况，对不同的语言进行预测。我们现在不断地改善深度学习，可以让他们在少量数据下取得进展。

还有其他的一些想法，在NLP当中进行了部署，尤其是像利用基于字和词块(word piece)的模型，还有通用的深度学习，比如说正则化的分类模型等等，所有的这些都可以帮助只有少量数据的任务取得进展。