【2020新书】Python文本分析,104页pdf

2020 年 12 月 23 日 专知

文本无处不在,对社会科学家来说,它是一个极好的资源。然而,由于信息非常丰富,而且语言又是千变万化的,通常很难提取出我们想要的信息。人工智能的整个子领域与文本分析(自然语言处理)有关。开发的许多基本分析方法现在都可以作为Python实现使用。这本书将告诉您何时使用哪个方法、它如何工作的数学背景以及实现它的Python代码。


概述:


今天,文本是我们生活中不可或缺的一部分,也是最丰富的信息来源之一。平均每天,我们阅读约9000字,包括电子邮件、短信、新闻、博客文章、报告、推特,以及街道名称和广告。在你一生的阅读过程中,这会让你有大约2亿字。这听起来令人印象深刻(事实也的确如此),然而,我们可以在不到0.5 g的空间里存储这些信息:我们可以在u盘上随身携带一生都值得阅读的信息。在我写这篇文章的时候,互联网上估计至少有超过1200 TB的文本,或250万人的阅读价值。现在,大部分文本都以社交媒体的形式存在:微博、推特、Facebook状态、Instagram帖子、在线评论、LinkedIn个人资料、YouTube评论等等。然而,文本即使在线下也是丰富的——季度收益报告、专利申请、问卷答复、书面信函、歌词、诗歌、日记、小说、议会会议记录、会议记录,以及成千上万的其他形式,可以(也正在)用于社会科学研究和数据挖掘。


文本是一个极好的信息来源,不仅仅是因为它的规模和可用性。它(相对)是永久性的,而且——最重要的是——它对语言进行编码。这一人类能力(间接地,有时甚至直接地)反映了广泛的社会文化和心理结构:信任、权力、信仰、恐惧。因此,文本分析被用于衡量社会文化结构,如信任(Niculae, Kumar, Boyd-Graber, & danescul - niculescul - mizil, 2015)和权力(Prabhakaran, Rambow, & Diab, 2012)。语言编码了作者的年龄、性别、出身和许多其他人口统计因素(Labov, 1972;Pennebaker, 2011;Trudgill, 2000)。因此,文本可以用来衡量社会随着时间推移对这些目标概念的态度(见Garg, Schiebinger, Jurafsky, & Zou, 2018;Hamilton, Leskovec, & Jurafsky, 2016;Kulkarni, Al-Rfou, Perozzi, & Skiena, 2015)。


然而,这种海量数据可能很快就会让人喘不过气来,处理这些数据可能会让人望而生畏。文本通常被称为非结构化数据,这意味着它不是以电子表格的形式出现,而是整齐地按类别排列。它有不同的长度,如果不首先对其进行格式化,就不能很容易地将其送入您喜欢的统计分析工具。然而,正如我们将看到的,“非结构化”是一个有点用词不当。文本绝不是没有任何结构的——它遵循非常规则的结构,受语法规则的控制。如果你知道这些,理解文本就会变得容易得多。


这本书分成两部分。在前半部分,我们将学习文本和语言的一些基本属性——语言分析的层次、语法和语义成分,以及如何描述它们。我们还将讨论为我们的分析删除哪些内容,保留哪些内容,以及如何计算简单、有用的统计数据。在下半部分,我们将着眼于探索,发现数据中的潜在结构。我们将从简单的统计学习到更复杂的机器学习方法,如主题模型、词嵌入和降维。





https://www.cambridge.org/core/elements/text-analysis-in-python-for-social-scientists/BFAB0A3604C7E29F6198EA2F7941DFF3



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“P104” 可以获取《【2020新书】Python文本分析,104页pdf》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

【斯坦福经典书】机器学习导论,188页pdf
专知会员服务
77+阅读 · 2021年3月31日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
斯坦福《序列处理的深度学习架构》概述,31页pdf
专知会员服务
55+阅读 · 2021年1月3日
专知会员服务
114+阅读 · 2020年11月27日
最新《理论计算科学导论》书稿,655页pdf
专知会员服务
100+阅读 · 2020年9月17日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
60+阅读 · 2020年7月30日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
专知会员服务
163+阅读 · 2020年7月27日
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
最新《图理论》笔记书,98页pdf
专知
51+阅读 · 2020年12月27日
Gartner:2020年十大战略性技术趋势, 47页pdf
专知
25+阅读 · 2020年3月10日
深度学习在 NLP 上的七大应用
AI前线
3+阅读 · 2017年10月11日
Arxiv
9+阅读 · 2021年4月8日
Arxiv
15+阅读 · 2019年9月30日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
VIP会员
相关VIP内容
【斯坦福经典书】机器学习导论,188页pdf
专知会员服务
77+阅读 · 2021年3月31日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
斯坦福《序列处理的深度学习架构》概述,31页pdf
专知会员服务
55+阅读 · 2021年1月3日
专知会员服务
114+阅读 · 2020年11月27日
最新《理论计算科学导论》书稿,655页pdf
专知会员服务
100+阅读 · 2020年9月17日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
60+阅读 · 2020年7月30日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
182+阅读 · 2020年7月29日
专知会员服务
163+阅读 · 2020年7月27日
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
Top
微信扫码咨询专知VIP会员