The syntactic structure of a sentence is often represented using syntactic dependency trees. The sum of the distances between syntactically related words has been in the limelight for the past decades. Research on dependency distances led to the formulation of the principle of dependency distance minimization whereby words in sentences are ordered so as to minimize that sum. Numerous random baselines have been defined to carry out related quantitative studies on languages. The simplest random baseline is the expected value of the sum in unconstrained random permutations of the words in the sentence, namely when all the shufflings of the words of a sentence are allowed and equally likely. Here we focus on a popular baseline: random projective permutations of the words of the sentence, that is, permutations where the syntactic dependency structure is projective, a formal constraint that sentences satisfy often in languages. Thus far, the expectation of the sum of dependency distances in random projective shufflings of a sentence has been estimated approximately with a Monte Carlo procedure whose cost is of the order of $Zn$, where $n$ is the number of words of the sentence and $Z$ is the number of samples; the larger $Z$, the lower the error of the estimation but the larger the time cost. Here we present formulae to compute that expectation without error in time of the order of $n$. Furthermore, we show that star trees maximize it, and devise a dynamic programming algorithm to retrieve the trees that minimize it.


翻译:判决的合成结构往往使用合成依赖性树来表示。在过去几十年里,与同义词之间的距离总和已经出现在焦点中。对依赖性距离的研究导致制定了依赖性距离最小化原则,即命令在句子中用词最小化,以尽量减少这一总数。许多随机基线已经确定,以便对语言进行相关的定量研究。最简单的随机基线是该句中字句中不受限制的随机拼动的比值,即,当允许和同样可能对所有句子进行重整时。这里我们集中关注一个流行的基线:该句子词的随机投影变换,即,在对句子中单词进行随机投影式最小化,从而尽量减少该句子的偏差,即,在对句子中,正式限制往往用语言进行。因此,对一个句子随机投影的偏差总和,用蒙特卡洛程序估算出该句子的比值大约为1Zn美元,其中美元是判决的字数,这里的比值为美元,而Z值则以美元计算得更低的顺序,我们估计的比值要低的比值,我们更低的比值是比值的数值,我们更低的比值。

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年5月21日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Inhomogeneous Markov Survival Regression Models
Arxiv
0+阅读 · 2021年9月7日
Arxiv
5+阅读 · 2019年6月5日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
算法|随机森林(Random Forest)
全球人工智能
3+阅读 · 2018年1月8日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员