Working from a dataset of 118 billion messages running from the start of 2009 to the end of 2019, we identify and explore the relative daily use of over 150 languages on Twitter. We find that eight languages comprise 80% of all tweets, with English, Japanese, Spanish, and Portuguese being the most dominant. To quantify social spreading in each language over time, we compute the 'contagion ratio': The balance of retweets to organic messages. We find that for the most common languages on Twitter there is a growing tendency, though not universal, to retweet rather than share new content. By the end of 2019, the contagion ratios for half of the top 30 languages, including English and Spanish, had reached above 1 -- the naive contagion threshold. In 2019, the top 5 languages with the highest average daily ratios were, in order, Thai (7.3), Hindi, Tamil, Urdu, and Catalan, while the bottom 5 were Russian, Swedish, Esperanto, Cebuano, and Finnish (0.26). Further, we show that over time, the contagion ratios for most common languages are growing more strongly than those of rare languages.


翻译:从2009年初至2019年底,我们从1 880亿条信息数据集中发现并探索Twitter上150多种语言每天的相对使用率。我们发现,8种语言占所有推特的80%,其中英文、日文、西班牙文和葡萄牙文占最主要位置。为了量化每一语言的社会传播,我们计算了“聚合比率”:回调与有机信息的平衡。我们发现,在推特上最常用的语言中,重新使用而不是分享新内容的趋势日益增长,尽管不是普遍,但这种趋势是越来越普遍。到2019年底,包括英语和西班牙语在内的前30种语言中,半数的传染比率已经超过1 -- -- 即天性传染临界点。2019年,每日平均比率最高的前5种语言的顺序是泰语(7.3)、印地语、泰米尔语、乌尔都语和加泰兰语,而最底层5种语言是俄语、瑞典语、埃斯佩兰托语、克布阿诺语和芬兰语(0.26)。此外,我们发现,随着时间的推移,大多数常见语言的传染比率比罕见语言的传染比率正在大幅增长。

0
下载
关闭预览

相关内容

Twitter(推特)是一个社交网络及微博客服务的网站。它利用无线网络,有线网络,通信技术,进行即时通讯,是微博客的典型应用。
专知会员服务
123+阅读 · 2020年9月8日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
已删除
将门创投
4+阅读 · 2017年12月5日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
0+阅读 · 2021年3月12日
Arxiv
3+阅读 · 2018年4月5日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
已删除
将门创投
4+阅读 · 2017年12月5日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Top
微信扫码咨询专知VIP会员