教程题目:Computational Analysis of Political Texts: Bridging Research Efforts Across Communities
教程简介:
使用计算方法来研究政治文本的范围急剧扩大,使政治科学中的文本即数据社区得以持续增长。NLP方法已被广泛用于许多分析和任务,包括从文本记录中推测某人的政治立场,检测政治文本中的观点,以及分析政治沟通中的文体运用(比如制定政治议程过程中语意模糊性起到的作用)。政治学家创建了资源并使用可用的NLP方法来处理文本数据,这在很大程度上与NLP社区隔离。
与此同时,NLP的研究人员处理了密切相关的任务,如选举预测、意识形态分类和立场检测。这两个社区仍然很大程度上彼此不可知,NLP研究人员大多不知道政治科学中有趣的应用程序和用例,而政治科学家在将前沿NLP方法应用到他们的问题上落后。本教程将全面概述政治文本的计算分析工作。首先查看文本数据在政治分析中所扮演的角色,然后继续研究文本即数据的政治科学社区所处理的具体资源和任务。接下来,介绍NLP社区迄今为止所做的研究工作,重点介绍对政治文本进行专题分析的方法,包括无监督的主题归纳和监督的主题分类研究。最后,以政治文本标度作为本教程的结尾,这是文本数据中意识形态检测的一个具有挑战性的任务,它是定量政治学的核心,最近也引起了NLP学者的注意。
组织者:
GoranGlavaš是德国曼海姆大学博士教授,跨学科研究文本分析初级教授,研究兴趣是词汇和计算语义,信息提取,多语言和跨语言NLP,NLP在社会科学和人文学科中的应用,信息检索。
Federico Nanni是艾伦·图灵研究所的研究数据科学家,是研究工程小组的一员,也是伦敦大学高级研究学院的访问学者。目前研究人文数字、计算社会科学、互联网研究和自然语言处理之间的交叉。
Simone Paolo Ponzetto于2013年2月加入数据与网络科学小组,担任初级教授,并于2016年2月起担任曼海姆大学信息系统III讲座教授。