语言模型能真正理解语言吗？看看ACL 2020最佳主题论文怎么说

2020 年 10 月 6 日 AINLP

大数据时代的到来使数据处理能力大幅提升，这为各种机器学习算法、神经网络模型的实现提供了硬件基础。在大数据时代来临之前，在NLP领域动用数以亿计的语料库、训练集对模型进行训练是不可想象的，而今已司空见惯。这带来的成果，就是大型神经语言模型在NLP各任务领域都取得了令人振奋的成功，像BERT、GPT-2/3这些大型语言模型似乎在自然语言处理问题上似乎已经无所不能。翻看近些年计算语言学、NLP领域的会议论文集可以发现，BERT几乎无处不在，甚至已经出现了一个新的学术名称 “BERT学”("BERTology")。但是这些语言模型是否有被过度关注和夸大宣传的嫌疑呢？以BERT为代表的语言模型真的可以无所不能吗？NLP还算是一门交叉学科吗？它是否还需要语言学知识呢？针对这些问题，ACL 2020的最佳主题论文从“语言模型能否理解语言”出发，探讨了NLU领域意义、形式和语言理解的关系。

该文第一作者Prof. Dr. Emily M. Bender是美国华盛顿大学语言学系的系主任，也是Pro. M. Sc. in Computational Linguistics项目的负责人。第二作者Prof. Dr. Alexander Koller是德国计算机传统名校萨尔大学语言科学与技术系的教授。

如果把计算语言学或NLP领域分为两大派别，即计算机主义者和语言学主义者（随着人工智能、机器学习在NLP领域影响力不断增大，计算机主义者快逐渐演化成了人工智能/机器学习主义者），那么Bender教授一定是坚定的语言学主义者，她在2017年就曾在twitter上发起过一场有关NLP是否是交叉学科的学术争论。（文章链接：https://www.sohu.com/a/203851341_114877）

说回ACL 2020这篇文章，本文整体观点比较激进，语言风格也是非常犀利的，用词很不客气，针对指向性也很明显，在为NLP领域越来越看重神经模型、人工智能算法而忽视传统、忽视语言本体的趋势和现象而鸣不平。而这篇论文受到ACL的认可，获颁最佳主题论文奖，或许也代表了学界对目前NLP领域发展的一种反思和态度的转变。

文章内容介绍

Bender和Koller的这篇论文首先提出语言模型在许多任务领域都取得了重大进展，也包括在“表面上”和语义相关的领域方面，这导致在学术和公众领域，大家都认为语言模型可以“理解”自然语言或是学习到语言的“意义”。作者认为这是一种过分赞誉和夸大宣传，这源于大家对语言形式和语言意义的误解。作者首先对“BERT学”文献进行简要综述，举出了很多例子来说明学界和媒体对于以BERT为代表的语言模型的夸大，并指出这造成了对公众的误导，同时也借助一些研究结论表明BERT在英语论据理解和英语多类别自然语言推论数据库等任务领域表现具有局限性。作者认为，语言模型无法学习语义，因为语言模型仅仅使用语言形式作为训练数据，并没有碰触到语言意义本身。

那么什么是语言意义呢？作者认为语言学的意义（linguistic meaning）应该是语言形式（linguistic form）和交流意图(communication intent)的关系。作者把语言形式定义为任何可以被观察到的语言现象，比如一页纸上的标记、用来表示电子形式文本的像素和字节或是发声器官的动作。交流意图被定义为语言外（outside of language）的，或者是超语言的（paralinguistic），是以交流双方，即发出者和接收者所共同构成的外部现实世界为基础的，交流意图也可以是关于抽象世界的。而语言意义就是语言形式和和交流意图这一语言外部事物的关系。这里的关系指的是数学意义上的关系，即，其中为自然语言表达的集合，；为交流意图的集合，。定义在上的关系为即为语言意义，包含有序对。

作者还区分了交流意图和惯例意义（conventional meaning），或者叫作长期意义（standing meaning）。惯例意义是指语言表达（字词句）在所有可能语境下恒定不变的那部分意义，是在给定语言系统下对语言形式交流潜质的抽象表征。作者指出每个语言系统都会伴随着包含有序对的关系，其中是语言表达，是惯例意义。

作者认为，纯粹依靠语言形式训练的自然语言模型无法学习语言意义。如果训练数据仅仅为形式的话，那就没有足够的训练序列来学习语言形式和人类语言使用者非语言意图的关系 ,即使是语言形式和语言系统惯例意义的关系也无法学到。

文章主体部分介绍多种思维实验和相关领域研究，试图证明语言意义不能仅仅从语言形式中习得，包括汉语房间实验、“章鱼”测试、JAVA语言和英语测试、语言习得和分布语义学理论等。

在总结阶段，文章提出了看待NLP领域所取得的重大进步的两种理论构建视角，即自顶向下（top-down）和自底向上（bottom-up）的理论构建。在自底向上的视角下，学术界研究是通过发现和解决具体的研究挑战驱动的，如果科学研究能够解决的一个具体的挑战，或者部分解决，那就可以被视作是一项学术成果，只要这些让人满意的成功是频繁出现的，那就会带来一种持续进步的总体气氛。与之相对的自顶向下视角则聚焦远期终极目标，致力于为整个领域提供一套完整统一的理论体系。自顶向下的视角会带来焦虑感，因为我们还不能完全解释所有现象，还会提出更加棘手的问题，那就是我们自底向上的进步到底有没有把我们领向正确的方向。毫无疑问NLP正以飞速攀登的速度进步，每年各领域NLP任务的解决办法都通过更好预训练的语言模型能显著改进，因此如果从自底向上的角度来看，一切都进展顺利。但是，如果从自顶向下的角度看，我们如此飞速攀登的山峰，究竟是不是“正确的”这座山呢？我们还不知道当今飞速进步会把我们带向的最终目标是什么，是“普遍语言智能”（"General Linguistic Intelligence"）？还是一个可以通过图灵测试的系统？抑或是一个能够从语言学角度实现理解英语、阿拉巴霍语、泰语或豪萨语的系统？

纵观计算语言学发展史，计算语言学家经历了多次主流变革。基于语法规则和专家知识的方法让位于统计方法，而如今大部分研究又吸收了神经方法。每代研究者都觉得他们解决了相关问题，不断进步，但是最终每种范式不可解决的致命缺陷出现以后，就会随即被抛弃。那么，应该如何尽量让计算语言学的科研攀登是在一座正确的山上呢？

首先，对语言保持谦卑，多问自顶向下问题。神经方法并不是NLP领域第一个取得自底向上的成功的，应该也不会是最后一个。
其次，了解任务的局限性。像bAbI这样的人工任务可以帮助一个领域的研究取得进展，但是不要妄想测试数据的语言分布能完全模拟现实语言世界的分布。
第三，珍视和支持创造新任务的工作。
第四，通过多任务评价语义模型。
最后，对成功和错误都要进行彻底的分析。

在文章的最后一部分，作者就学界针对本文可能出现的反驳观点一一做出了回应。

论文原文：Emily M. Bender & Alexander Koller. Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data

点击阅读原文，即可阅读原论文。

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方"AINLP"，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

欢迎加入AINLP技术交流群

进群请添加AINLP小助手微信 AINLPer（id: ainlper)，备注NLP技术交流

推荐阅读

这个NLP工具，玩得根本停不下来

征稿启示| 200元稿费+5000DBC（价值20个小时GPU算力）

完结撒花！李宏毅老师深度学习与人类语言处理课程视频及课件（附下载）

从数据到模型，你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus，一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具（NER）哪家强？

学自然语言处理，其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。