Cultural areas represent a useful concept that cross-fertilizes diverse fields in social sciences. Knowledge of how humans organize and relate their ideas and behavior within a society helps to understand their actions and attitudes towards different issues. However, the selection of common traits that shape a cultural area is somewhat arbitrary. What is needed is a method that can leverage the massive amounts of data coming online, especially through social media, to identify cultural regions without ad-hoc assumptions, biases or prejudices. This work takes a crucial step in this direction by introducing a method to infer cultural regions based on the automatic analysis of large datasets from microblogging posts. The approach presented here is based on the principle that cultural affiliation can be inferred from the topics that people discuss among themselves. Specifically, regional variations in written discourse are measured in American social media. From the frequency distributions of content words in geotagged Tweets, the regional hotspots of words' usage are found, and from there, principal components of regional variation are derived. Through a hierarchical clustering of the data in this lower-dimensional space, this method yields clear cultural areas and the topics of discussion that define them. It uncovers a manifest North-South separation, which is primarily influenced by the African American culture, and further contiguous (East-West) and non-contiguous divisions that provide a comprehensive picture of today's cultural areas in the US.


翻译:文化区是一个有益的概念,它在社会科学的不同领域之间相互交叉。了解人类在社会中组织和关联他们的思想和行为方式,有助于理解他们对不同问题的行动和态度。然而,塑造文化区的共同特征的选择有些是任意的。需要的是一种方法,可以利用来自社交媒体的大量数据来识别文化区域,而不需要任何特定的假设、偏见或成见。本文通过引入一种基于自动分析微博数据集的方法来推断文化区,这是在这个方向上迈出的重要一步。本文提出的方法基于这样一个原则,即文化隶属可以从人们在自己之间讨论的主题中推断出来。具体地,分析美国社交媒体中书面话语的区域变化。从地理标记的推文中的内容词频分布中,找到单词使用的区域热点,并从此推导出区域变化的主要成分。通过对这个低维空间中的数据进行层次聚类,该方法可以得出明确的文化区和定义它们的讨论主题。它发现了一个明显的南北分离,主要受非裔美国文化的影响,以及进一步的连续(东-西)和不连续的分区,为美国今天的文化区提供了全面的画面。

0
下载
关闭预览

相关内容

社交媒体(Social Media)是一种给与用户极大参与空间的新型在线媒体,博客、维基、播客、论坛、社交网络、内容社区是具体的实例。
《研究认知偏见分类的证据》美国陆军2022最新56页论文
专知会员服务
23+阅读 · 2022年10月31日
专知会员服务
55+阅读 · 2020年10月11日
专知会员服务
124+阅读 · 2020年9月8日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
61+阅读 · 2020年7月30日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
31+阅读 · 2022年2月15日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员