It is often stated that human languages, as other biological systems, are shaped by cost-cutting pressures but, to what extent? Attempts to quantify the degree of optimality of languages by means of an optimality score have been scarce and focused mostly on English. Here we recast the problem of the optimality of the word order of a sentence as an optimization problem on a spatial network where the vertices are words, arcs indicate syntactic dependencies and the space is defined by the linear order of the words in the sentence. We introduce a new score to quantify the cognitive pressure to reduce the distance between linked words in a sentence. The analysis of sentences from 93 languages representing 19 linguistic families reveals that half of languages are optimized to a 70% or more. The score indicates that distances are not significantly reduced in a few languages and confirms two theoretical predictions, i.e. that longer sentences are more optimized and that distances are more likely to be longer than expected by chance in short sentences. We present a new hierarchical ranking of languages by their degree of optimization. The statistical advantages of the new score call for a reevaluation of the evolution of dependency distance over time in languages as well as the relationship between dependency distance and linguistic competence. Finally, the principles behind the design of the score can be extended to develop more powerful normalizations of topological distances or physical distances in more dimensions.


翻译:通常有人说,人类语言与其他生物系统一样,受成本削减压力的影响,但程度如何?试图以最佳程度评分的方式量化语言的最佳程度,但这种尝试是稀缺的,而且主要侧重于英语。在这里,我们重新将一个句子的字顺序优化问题作为空间网络的一个优化问题,在空间网络中,句子是单词,弧法表明综合依赖性,用句子的线性顺序界定空间。我们采用新的评分,量化认知压力,以减少一个句子中相联词的距离。对代表19个语言家庭93种语言的量刑分析显示,半数语言的优化程度为70%或70%以上。评分表明,少数语言的距离没有大大缩短,并证实了两种理论预测,即句子更优化,短句子的距离比预期要长得多。我们以其优化程度对语言进行新的等级排序。新评分的统计优势要求重新评价依赖性距离的变异程度,在语言设计上更远的距离上,可以在语言的高度上发展。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
On an Unknown Ancestor of Burrows' Delta Measure
Arxiv
0+阅读 · 2020年12月9日
Arxiv
0+阅读 · 2020年12月7日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关VIP内容
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
一文读懂依存句法分析
AINLP
16+阅读 · 2019年4月28日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
别说还不懂依存句法分析
人工智能头条
23+阅读 · 2019年4月8日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Top
微信扫码咨询专知VIP会员