【干货书】Python文本分析,104页pdf

2021 年 5 月 5 日 专知

文本无处不在,对社会科学家来说,它是一个极好的资源。然而,由于信息非常丰富,而且语言又是千变万化的,通常很难提取出我们想要的信息。人工智能的整个子领域与文本分析(自然语言处理)有关。开发的许多基本分析方法现在都可以作为Python实现使用。这本书将告诉您何时使用哪个方法、它如何工作的数学背景以及实现它的Python代码。


概述:


今天,文本是我们生活中不可或缺的一部分,也是最丰富的信息来源之一。平均每天,我们阅读约9000字,包括电子邮件、短信、新闻、博客文章、报告、推特,以及街道名称和广告。在你一生的阅读过程中,这会让你有大约2亿字。这听起来令人印象深刻(事实也的确如此),然而,我们可以在不到0.5 g的空间里存储这些信息:我们可以在u盘上随身携带一生都值得阅读的信息。在我写这篇文章的时候,互联网上估计至少有超过1200 TB的文本,或250万人的阅读价值。现在,大部分文本都以社交媒体的形式存在:微博、推特、Facebook状态、Instagram帖子、在线评论、LinkedIn个人资料、YouTube评论等等。然而,文本即使在线下也是丰富的——季度收益报告、专利申请、问卷答复、书面信函、歌词、诗歌、日记、小说、议会会议记录、会议记录,以及成千上万的其他形式,可以(也正在)用于社会科学研究和数据挖掘。


文本是一个极好的信息来源,不仅仅是因为它的规模和可用性。它(相对)是永久性的,而且——最重要的是——它对语言进行编码。这一人类能力(间接地,有时甚至直接地)反映了广泛的社会文化和心理结构:信任、权力、信仰、恐惧。因此,文本分析被用于衡量社会文化结构,如信任(Niculae, Kumar, Boyd-Graber, & danescul - niculescul - mizil, 2015)和权力(Prabhakaran, Rambow, & Diab, 2012)。语言编码了作者的年龄、性别、出身和许多其他人口统计因素(Labov, 1972;Pennebaker, 2011;Trudgill, 2000)。因此,文本可以用来衡量社会随着时间推移对这些目标概念的态度(见Garg, Schiebinger, Jurafsky, & Zou, 2018;Hamilton, Leskovec, & Jurafsky, 2016;Kulkarni, Al-Rfou, Perozzi, & Skiena, 2015)。


然而,这种海量数据可能很快就会让人喘不过气来,处理这些数据可能会让人望而生畏。文本通常被称为非结构化数据,这意味着它不是以电子表格的形式出现,而是整齐地按类别排列。它有不同的长度,如果不首先对其进行格式化,就不能很容易地将其送入您喜欢的统计分析工具。然而,正如我们将看到的,“非结构化”是一个有点用词不当。文本绝不是没有任何结构的——它遵循非常规则的结构,受语法规则的控制。如果你知道这些,理解文本就会变得容易得多。


这本书分成两部分。在前半部分,我们将学习文本和语言的一些基本属性——语言分析的层次、语法和语义成分,以及如何描述它们。我们还将讨论为我们的分析删除哪些内容,保留哪些内容,以及如何计算简单、有用的统计数据。在下半部分,我们将着眼于探索,发现数据中的潜在结构。我们将从简单的统计学习到更复杂的机器学习方法,如主题模型、词嵌入和降维。





https://www.cambridge.org/core/elements/text-analysis-in-python-for-social-scientists/BFAB0A3604C7E29F6198EA2F7941DFF3



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“P104” 可以获取《【2020新书】Python文本分析,104页pdf》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
1

相关内容

【干货书】线性代数及其应用,688页pdf
专知会员服务
154+阅读 · 2021年6月10日
【干货书】从初等问题看数学的本质,400页pdf
专知会员服务
55+阅读 · 2021年5月28日
【干货书】数据科学手册,456页pdf
专知会员服务
145+阅读 · 2021年4月27日
【干货书】机器学习优化,509页pdf
专知会员服务
144+阅读 · 2021年2月26日
【2020新书】Python文本分析,104页pdf
专知会员服务
96+阅读 · 2020年12月23日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
【干货书】机器学习Primer,122页pdf
专知会员服务
104+阅读 · 2020年10月5日
【干货书】计算机科学离散数学,627页pdf
专知会员服务
127+阅读 · 2020年8月31日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
176+阅读 · 2020年7月29日
【干货书】Python语音计算导论,408页pdf
专知会员服务
98+阅读 · 2020年7月12日
【干货书】计算机科学离散数学,627页pdf
专知
54+阅读 · 2020年8月31日
【干货书】贝叶斯推断随机过程,449页pdf
专知
26+阅读 · 2020年8月27日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
我是怎么走上推荐系统这条(不归)路的……
全球人工智能
11+阅读 · 2019年4月9日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
41+阅读 · 2017年10月31日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
python pandas 数据处理
Python技术博文
3+阅读 · 2017年8月30日
Arxiv
0+阅读 · 2021年6月22日
VIP会员
相关VIP内容
【干货书】线性代数及其应用,688页pdf
专知会员服务
154+阅读 · 2021年6月10日
【干货书】从初等问题看数学的本质,400页pdf
专知会员服务
55+阅读 · 2021年5月28日
【干货书】数据科学手册,456页pdf
专知会员服务
145+阅读 · 2021年4月27日
【干货书】机器学习优化,509页pdf
专知会员服务
144+阅读 · 2021年2月26日
【2020新书】Python文本分析,104页pdf
专知会员服务
96+阅读 · 2020年12月23日
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
【干货书】机器学习Primer,122页pdf
专知会员服务
104+阅读 · 2020年10月5日
【干货书】计算机科学离散数学,627页pdf
专知会员服务
127+阅读 · 2020年8月31日
【干货书】管理统计和数据科学原理,678页pdf
专知会员服务
176+阅读 · 2020年7月29日
【干货书】Python语音计算导论,408页pdf
专知会员服务
98+阅读 · 2020年7月12日
相关资讯
【干货书】计算机科学离散数学,627页pdf
专知
54+阅读 · 2020年8月31日
【干货书】贝叶斯推断随机过程,449页pdf
专知
26+阅读 · 2020年8月27日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
我是怎么走上推荐系统这条(不归)路的……
全球人工智能
11+阅读 · 2019年4月9日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
41+阅读 · 2017年10月31日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
python pandas 数据处理
Python技术博文
3+阅读 · 2017年8月30日
Top
微信扫码咨询专知VIP会员