作者 | Melanie Mitchell
译者 | 弯月
出品 | CSDN(ID:CSDNnews)
2011年,IBM 的人工智能系统沃森参加综艺节目《危险边缘》,并获得了冠军,当时他们宣称:“沃森能够理解自然语言的所有歧义和复杂性。”然而,之后沃森在大胆进军医疗保健领域时,却遭遇惨败,这说明人工智能对语言的理解与人类并不相同。
长期以来,理解自然语言一直是人工智能研究的主要目标。最初,研究人员曾尝试通过手工编写的代码,帮助计算机理解新闻故事、小说或人类撰写的其他文档。然而,正如沃森的经历,这种方法都是徒劳的,我们不可能把理解文本所需的所有不成文的事实、规则和假设都写进代码里。
最近,人工智能领域又涌现出一种新型的范式:让机器学习通过大量书面文本学习预测单词的方式,自行理解语言。这就是研究人员所说的语言模型。这类模型基于大型神经网络,比如 OpenAI的GPT-3,并生成了令人难以置信的散文(和诗歌!),而且还可以推理复杂的语言逻辑。
GPT-3通过来自数千个网站、书籍和百科全书的文本的训练,它是否超越了沃森的表现呢?它真的能够理解自己生成的语言及其逻辑吗?这个话题在AI研究领域一直富有争议。这类探讨曾是哲学领域的话题,但在过去的十年中,人工智能已经突破学术领域,并闯入了现实世界,但由于缺乏对现实世界的理解,它们可能会带来灾难性的后果。在一项研究中,有人发现了IBM的沃森“提出不安全和不正确的治疗建议”的多个例子。还有一项研究表明,Google的机器翻译系统为非英语患者翻译医疗说明时出现了重大错误。
在实践中,我们如何才能确认机器学习是否真的能够理解人类的语言呢?1950 年,计算先驱艾伦·图灵曾通过著名的“模仿游戏”来回答这个问题,如今我们称其为图灵测试。具体做法是,一台机器和一个人,看不见彼此,二者竞相仅通过对话的方式来说服人类法官自己才是人类。如果该法官无法分辨哪个是人类,那么,图灵可以断言这台机器确实拥有思考的能力,也就是说能够理解人类的语言。
然而不幸的是,图灵低估了人类喜欢被机器愚弄的倾向性。20世纪60年代,JosephWeizenbaum发明了一个名为Eliza的心理治疗师,这个小程序骗过了很多人,他们相信自己正在与一个人类交谈,即便他们知道对面只是一台机器。
在2012年的一篇论文中,计算机科学家Hector Levesque、Ernest Davis和 Leora Morgenstern提出了一个更客观的测试,他们称之为“威诺格拉德模式挑战”(WinogradSchema Challenge,WSC)。该测试已被AI语言社区采用,作为评估机器理解的一种方式,也许是最好的方式,尽管我们可以看到它并不完美。这种方式有一个“威诺格拉德模式”(WinogradSchema),其名称源于斯坦福大学计算机科学家特里·威诺格拉德。该模式由一对句子组成,两个句子仅相差一个词,而且两个句子紧紧相接。下面是两个例子:
句子1:小明跟叔叔打网球输了,尽管他年长了30岁。
句子2:小明跟叔叔打网球输了,尽管他年轻了30岁。
在上述句子中,一字之差,所指的事物或人就完全不同。正确地回答这些问题需要一些常识性的判断。威诺格拉德模式正是为了测试这种理解能力而设计的,这种方式弥补了图灵测试的脆弱性:不可靠的人类判断,以及聊天机器人采用的技巧。特别是,作者设计了数百个针对网络搜索的模式:机器无法通过网络搜索来正确回答的问题。
这些模式是2016年举办的一场比赛的主题,最后就连获胜的程序也只回答对了 58%的句子,比盲猜(50%)略好一点。人工智能研究员Oren Etzioni打趣道:“AI连一句话中的it指的是什么都无法确定,居然还有人指望它统治整个世界?”
然而,由于大型神经网络语言模型的涌现,AI程序解决威诺格拉德模式的能力也迅速得到了提高。2020年,OpenAI的一篇论文称,在威诺格拉德模式的测试中,GPT-3正确回答了90%的句子。还有一些语言模型在经过专门的训练之后表现更好。目前,神经网络语言模型在一组特定的威诺格拉德模式测试上,达到了约97%的准确率,这些模式是一个名叫SuperGLUE的人工智能理解语言竞赛中一部分。这个准确率几乎与人类的表现持平。这是否意味着神经网络语言模型已经达到了人类的理解水平?
不一定。尽管这些语言模型的创作者尽了最大努力,但这些威诺格拉德模式并非不可通过网络获取答案。这些问题就像许多其他当前的AI语言理解测试一样,有时也有捷径可以走,即便神经网络不理解句子的真正含义,也可以给出正确答案。举个例子:
跑车比卡车跑的更快,是因为它的速度更快。
跑车比卡车跑的更快,是因为它的速度更慢。
经过大型语料库训练的语言模型掌握了“跑车”与“快”以及“卡车”与“慢”之间的联系,因此可以仅凭这些相关性(而不是真正理解句子的含义)来给出正确的答案。事实证明,SuperGLUE竞赛中的许多威诺格拉德模式都可以通过这类的统计相关性给出答案。
艾伦人工智能研究所的研究人员并没有放弃威诺格拉德模式,并决定努力解决这些问题。2019年,他们创建了WinoGrande,这是一组更大的威诺格拉德模式,其中包含44,000个句子。为了获得如此多的例子,研究人员通过亚马逊的 MechanicalTurk(一个流行的众包工作平台),让每个(人类)工人写出几对句子,并通过一些限制确保这些句子包含不同的主题,尽管最后收集到的每一对句子相差可能不止一个单词。
接着,研究人员通过一些简单的AI测试,删除了可通过统计捷径轻松回答的句子。正如预期的那样,与原始的威诺格拉德模式相比,WinoGrande中的句子向机器学习发起了更困难的挑战。虽然在面对WinoGrande 时,人类的得分仍然很高,但神经网络语言模型的得分却低了很多。这项新挑战似乎恢复了威诺格拉德模式作为常识测试的地位,只要句子本身经过仔细筛选,确保无法通过网络搜索得到答案即可。
然而,另一个惊喜还在后面。在 WinoGrande 发布后的近两年里,神经网络语言模型的规模越来越大,而且随着规模的增大,似乎它们在这项新挑战中的得分也越来越高。目前,最先进的神经网络语言模型已经经过了TB级文本上训练,然后又在数千个WinoGrande示例上进行了进一步的训练,可以达到将近 90% 的正确率,而人类的正确率约为94%。这种性能提升几乎完全来源于神经网络语言模型及其训练数据规模的增加。
这些日益增大的神经网络模型是否达到了人类的常识性理解水平?不太可能。WinoGrande 的结果有一些严重的问题。例如,由于这些句子的编写依赖于亚马逊Mechanical Turk 上的人工,因此写作的质量和连贯性参差不齐。此外,利用简单的人工智能方法剔除可通过网络搜索结果的句子,但这些人工智能方法可能过于简单,无法发现大型神经网络有可能使用的统计捷径,而且这些人工智能只能处理单个句子,因此导致一些成对的句子只剩下一句。一项后续研究表明,如果要求神经网络语言模型仅测试成对的句子,并且要求两个句子都回答正确,则它们的准确性远低于人类,因此前面的 90% 根本不能说明什么。
那么,威诺格拉德模式对我们来说有何意义呢?我们可以从中得到一个重要的教训:我们很难通过AI系统在某项挑战中的表现判断它们是否真的能够理解人类的语言(或其他数据)。如今我们知道,神经网络经常使用统计捷径(而不是展示类似于人类的理解能力)在威诺格拉德模式以及其他流行的“通用语言理解”基准上展示出高水平。
在我看来,问题的关键在于,要想理解人类的语言就需要理解这个世界,而只能接触到语言的机器无法获得这样的理解能力。我们来思考一下“跑车超过了卡车,是因为它的速度更慢”,这句话是什么意思。首先你需要知道“跑车”和“卡车”是什么,而且需要知道车辆可以互相“超车”,从更基本的层面来看,车辆是存在于世界上、能够与之互动的物体,且由人类驾驶。
对于人类来说,这些知识不过是基本常识,但机器内部没有这样的常识库,也不可能明确地编写到任何语言模型的训练文本中。一些认知科学家认为,人类学习和理解语言需要依赖语言的核心知识,即掌握空间、时间以及许多关于这个世界的其他基本因素。如果想让机器像人类一样掌握语言,则我们需要赋予它们人类与生俱来的一些基本法则。为了评估机器对语言的理解,我们首先应该它们对这些法则的掌握情况,人们称之为“婴儿的元物理学”。
与威诺格拉德模式和GPT-3等人工智能系统相比,训练和评估婴儿级别的智能机器似乎是一个巨大的倒退。但是,我们的目标是理解语言,而这可能是机器能够真正理解句子中的“it”所指,以及理解“it”所包含的一切的唯一途径。
https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/