词汇量不同不相为谋？高频词藏着人类思维基本模式

会员服务 ·

词汇量不同不相为谋？高频词藏着人类思维基本模式

2018 年 8 月 8 日 DeepTech深科技

早在 1935 年，美国语言学家乔治·齐普夫 (George Zipf) 就曾有一项非凡的发现。齐普夫对高频词与低频词之间的关系感到好奇。所以他统计了在日常语言中单词出现的频率，并根据使用频率对单词进行了排序。

这一统计揭示出了明显的规律性。齐普夫发现，一个词的使用频率与其在频率排序中的位置成反比。因此，第二常用的单词的使用频率似乎是最常用词的一半。而排名第三的单词的使用频率约是最常用词的三分之一，以此类推。

在英语中，最常用的单词是 the，占所有单词的 7％，其次是 and，占 3.5％，以此类推。实际上，约有 135 个单词占所有单词出现次数的一半。所以有一些单词经常出现，而大多数词则几乎从不出现。

但这是为什么呢？一种有趣的解释是大脑以一种不同的方式处理高频词，研究齐普夫分布应该会极大加深我们对于这一大脑活动过程的理解。

但有一个问题： 语言学家并不都认同词频的统计分布是认知过程的结果。相反，一些语言学家认为这种分布是由于对低频词的统计误差所产生的，统计误差也有可能产生类似的分布。

当然，这就需要我们对更多语言进行更大规模的研究。这样一项大规模的研究将更具统计学意义，得以厘清这些观点上的分歧。

现在，得益于中国传媒大学的于水源教授及其同事的工作，我们有了这样的一项研究。他们从取自包括印欧语系、乌拉尔语系、阿尔泰语系、高加索语系、汉藏语系、德拉威语系、亚非语系等在内的多个语系的 50 种语言中发现了齐普夫定律。

于水源等人表示，这些语言中的词频有着共同的结构，该结构和统计误差结构并不相同。而且，他们还表示，这个结构表明，大脑处理高频词的方式确实与处理低频词的方式不同，这一概念对于自然语言处理和文本自动生成具有重要影响。

于水源等人的研究方法很简单。他们从两个大型文本集合开始，即英国国家语料库和莱比锡语料库。这些语料库中涵盖了来自 50 种不同语言的样本，每个样本包含有至少 30,000 个句子和多达 4300 万个单词。

研究人员发现，所有这些语言中的词频都遵循一个修正后的齐普夫定律，修正后的齐普夫定律可分为三段。“统计结果表明，齐普夫定律在 50 种语言中都具有三段结构模式，每个分段都表现出独特的语言属性，”他们说。

这个结构很有趣。于水源等人试图用一些模型来模拟这个结构去创建单词。其中一种模型是猴子打字机模型，在这个模型下，字母随机出现，只要出现空格就算一个单词。

这个过程产生了像齐普夫定律那样的幂律分布。然而，它无法产生于水源等人所发现的三段式结构。而在涉及低频词统计错误的统计结果中，也无法产生这样的结构。

然而，于水源等人通过一种叫做双重加工理论的大脑工作模型复制出了这种结构。这种观点认为大脑在以两种不同的方式运作。

第一种方式是快速直观的思考，几乎不需要任何推理。通常认为我们进化出的这种思维方式允许人类在受到威胁的情况下迅速作出反应。它通常可以为困难的问题提供良好的解决方案，例如模式识别，但它也很容易被非直观的情形所欺骗。

然而，人类能做出比这理性得多的思考。第二种思维方式相对慢些，更慎重也更深思熟虑。这种思维方式使我们能更解决更为复杂的问题，例如数学难题等等。

这种双重加工理论表明，例如 the、and、if 等等高频词是被快速、直观的思考方式处理的，因此使用频率就更高。这些词汇构成了句子的主干。

而像“hyphothesis”、“齐普夫定律”（Zipf’s Law）这样的低频词和短语的使用则需要更多慎重的思考。也因为这样，这些词的使用频率就更低。

实际上，于水源等人在模拟这个双重加工模型时，发现了 50 种不同的语言中的词频分布存在相同的三段式结构。

第一段反映了高频词的分布，最后一段反映了低频词的分布，而中间段则是前后两段的交叠部分。“这些结果表明语言中的齐普夫定律是由类似于双重加工模型这样的控制人类语言行为的认知机制所驱动的，”于水源等人表示。

这是一项有趣的研究。近年来，人类大脑以两种不同的方式处理信息的这一观点有相当大的发展势头，特别是因为诺贝尔奖获奖心理学家丹尼尔·卡尼曼（Daniel Kahneman）的《思考，快与慢》这本书，对这一观点进行了深入的研究。

以下是一个激发快思考与慢思考的经典问题：

“一个球拍和一颗球共花费了 1.1 美元。其中球拍比球贵 1 美元。请问球多少钱？”

答案当然是 5 美分。但是几乎所有人的本能都是先想到 10 美分。这是因为 10 美分给人的感觉差不多是对的，它的数量级正确，而且在问题的框架中存在暗示。而这个答案则是从大脑快速、直观的部分得出的。

但这个答案是错的。我们需要需要大脑更慢、更慎重的部分进行计算才能得出正确的答案。

于水源等人认为在句子生成的过程中, 也有同样的双重加工处理过程。你大脑中快速思考的部分产生出句子的基本结构。而其它词语则需要大脑更缓慢、更慎重的部分生成。

就是这种双重加工引出了三段式的齐普夫定律。

这一研究应该会对研究自然语言处理的计算机科学家带来有趣的影响。这一领域得益于近年来的巨大进步——不仅源于机器学习算法的进步，还源于像谷歌这样的公司收集的大型文本数据库。

但人工生成自然语言仍然十分困难。你只要与 Siri，Cortana，还有谷歌助手聊上一会儿，就会发现他们会话能力还多么有限。

所以, 更好地理解人类如何生成句子必然会很有用。如果齐普夫还在，一定也会为之神往。

-End-

登录查看更多

相关内容

齐普夫定律

关注 0

【开放书】生命建模——用数学工具探索生物系统，456页pdf

专知会员服务

108+阅读 · 2020年7月8日

【斯坦福大学博士论文】统计模型的代数与机器表示，224页pdf

专知会员服务

34+阅读 · 2020年6月18日

【PNAS2020-斯坦福】自监督训练的人工神经网络中的涌现语言结构

专知会员服务

20+阅读 · 2020年6月5日

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【干货书】Python概率图模型实现，284页pdf带你实战学习概率图模型

专知会员服务

237+阅读 · 2020年4月8日

【经典书】Python算法第二版，303页pdf，掌握Python语言中的基本算法

专知会员服务

220+阅读 · 2020年3月29日

【经典书】数据结构与算法C++，第二版，738页pdf

专知会员服务

171+阅读 · 2020年3月27日

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【机器学习课程】Google机器学习速成课程

专知会员服务

170+阅读 · 2019年12月2日

【CLL 2019】汉语复合名词短语语义关系知识库构建与自动识别研究

专知会员服务

17+阅读 · 2019年10月18日

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

自然语言处理中的词表征（第二部分）

AI研习社

3+阅读 · 2018年12月31日

从语言学角度看词嵌入模型

AI研习社

4+阅读 · 2018年12月1日

理解五个基本概念，让你更像机器学习专家

云栖社区

5+阅读 · 2018年11月29日

比朴素贝叶斯更优秀的情感分析方法？答案在这里

AI前线

7+阅读 · 2018年11月19日

干货 | 自然语言处理(1)之聊一聊分词原理

机器学习算法与Python学习

5+阅读 · 2017年12月7日

自然语言处理的十个发展趋势

北京思腾合力科技有限公司

5+阅读 · 2017年11月25日

【NLP】十分钟快览自然语言处理学习总结

专知

17+阅读 · 2017年11月21日

自然语言处理中的深度学习发展史和待解难题

量子位

4+阅读 · 2017年7月31日

Message Passing for Complex Question Answering over Knowledge Graphs

Arxiv

6+阅读 · 2019年8月19日

X-BERT: eXtreme Multi-label Text Classification with BERT

Arxiv

12+阅读 · 2019年7月4日

On orthogonal projections for dimension reduction and applications in variational loss functions for learning problems

Arxiv

3+阅读 · 2019年1月22日

Unsupervised Multilingual Word Embeddings

Arxiv

4+阅读 · 2018年9月6日

Direct Output Connection for a High-Rank Language Model

Arxiv

5+阅读 · 2018年8月31日

Seq2Seq2Sentiment: Multimodal Sequence to Sequence Models for Sentiment Analysis

Arxiv

5+阅读 · 2018年8月6日

Road surface 3d reconstruction based on dense subpixel disparity map estimation

Arxiv

3+阅读 · 2018年7月5日

Supervised and Unsupervised Transfer Learning for Question Answering

Arxiv

4+阅读 · 2018年4月21日

HyperDense-Net: A hyper-densely connected CNN for multi-modal image segmentation

Arxiv

6+阅读 · 2018年4月9日

A Question-Focused Multi-Factor Attention Network for Question Answering

Arxiv

6+阅读 · 2018年1月25日

VIP会员