文本无处不在,对社会科学家来说,它是一个极好的资源。然而,由于信息非常丰富,而且语言又是千变万化的,通常很难提取出我们想要的信息。人工智能的整个子领域与文本分析(自然语言处理)有关。开发的许多基本分析方法现在都可以作为Python实现使用。这本书将告诉您何时使用哪个方法、它如何工作的数学背景以及实现它的Python代码。

概述:

今天,文本是我们生活中不可或缺的一部分,也是最丰富的信息来源之一。平均每天,我们阅读约9000字,包括电子邮件、短信、新闻、博客文章、报告、推特,以及街道名称和广告。在你一生的阅读过程中,这会让你有大约2亿字。这听起来令人印象深刻(事实也的确如此),然而,我们可以在不到0.5 g的空间里存储这些信息:我们可以在u盘上随身携带一生都值得阅读的信息。在我写这篇文章的时候,互联网上估计至少有超过1200 TB的文本,或250万人的阅读价值。现在,大部分文本都以社交媒体的形式存在:微博、推特、Facebook状态、Instagram帖子、在线评论、LinkedIn个人资料、YouTube评论等等。然而,文本即使在线下也是丰富的——季度收益报告、专利申请、问卷答复、书面信函、歌词、诗歌、日记、小说、议会会议记录、会议记录,以及成千上万的其他形式,可以(也正在)用于社会科学研究和数据挖掘。

文本是一个极好的信息来源,不仅仅是因为它的规模和可用性。它(相对)是永久性的,而且——最重要的是——它对语言进行编码。这一人类能力(间接地,有时甚至直接地)反映了广泛的社会文化和心理结构:信任、权力、信仰、恐惧。因此,文本分析被用于衡量社会文化结构,如信任(Niculae, Kumar, Boyd-Graber, & danescul - niculescul - mizil, 2015)和权力(Prabhakaran, Rambow, & Diab, 2012)。语言编码了作者的年龄、性别、出身和许多其他人口统计因素(Labov, 1972;Pennebaker, 2011;Trudgill, 2000)。因此,文本可以用来衡量社会随着时间推移对这些目标概念的态度(见Garg, Schiebinger, Jurafsky, & Zou, 2018;Hamilton, Leskovec, & Jurafsky, 2016;Kulkarni, Al-Rfou, Perozzi, & Skiena, 2015)。

然而,这种海量数据可能很快就会让人喘不过气来,处理这些数据可能会让人望而生畏。文本通常被称为非结构化数据,这意味着它不是以电子表格的形式出现,而是整齐地按类别排列。它有不同的长度,如果不首先对其进行格式化,就不能很容易地将其送入您喜欢的统计分析工具。然而,正如我们将看到的,“非结构化”是一个有点用词不当。文本绝不是没有任何结构的——它遵循非常规则的结构,受语法规则的控制。如果你知道这些,理解文本就会变得容易得多。

这本书分成两部分。在前半部分,我们将学习文本和语言的一些基本属性——语言分析的层次、语法和语义成分,以及如何描述它们。我们还将讨论为我们的分析删除哪些内容,保留哪些内容,以及如何计算简单、有用的统计数据。在下半部分,我们将着眼于探索,发现数据中的潜在结构。我们将从简单的统计学习到更复杂的机器学习方法,如主题模型、词嵌入和降维。

成为VIP会员查看完整内容
96

相关内容

Python是一种面向对象的解释型计算机程序设计语言,在设计中注重代码的可读性,同时也是一种功能强大的通用型语言。
【2021新书】编码艺术,Coding Art,284页pdf
专知会员服务
73+阅读 · 2021年1月10日
专知会员服务
78+阅读 · 2020年12月22日
Effective.Modern.C++ 中英文版,334页pdf
专知会员服务
66+阅读 · 2020年11月4日
【干货书】机器学习Primer,122页pdf
专知会员服务
104+阅读 · 2020年10月5日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
178+阅读 · 2020年9月7日
【干货书】计算机科学离散数学,627页pdf
专知会员服务
127+阅读 · 2020年8月31日
【2020新书】高级Python编程,620页pdf
专知会员服务
232+阅读 · 2020年7月31日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
59+阅读 · 2020年7月30日
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
【干货书】计算机科学离散数学,627页pdf
专知
54+阅读 · 2020年8月31日
卷积神经网络数学原理解析
算法与数学之美
19+阅读 · 2019年8月23日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
421页《机器学习数学基础》最新2019版PDF下载
独家 | 一文读懂人工神经网络
数据派THU
11+阅读 · 2018年2月1日
Arxiv
27+阅读 · 2020年6月19日
3D-LaneNet: end-to-end 3D multiple lane detection
Arxiv
7+阅读 · 2018年11月26日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关VIP内容
【2021新书】编码艺术,Coding Art,284页pdf
专知会员服务
73+阅读 · 2021年1月10日
专知会员服务
78+阅读 · 2020年12月22日
Effective.Modern.C++ 中英文版,334页pdf
专知会员服务
66+阅读 · 2020年11月4日
【干货书】机器学习Primer,122页pdf
专知会员服务
104+阅读 · 2020年10月5日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
178+阅读 · 2020年9月7日
【干货书】计算机科学离散数学,627页pdf
专知会员服务
127+阅读 · 2020年8月31日
【2020新书】高级Python编程,620页pdf
专知会员服务
232+阅读 · 2020年7月31日
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
59+阅读 · 2020年7月30日
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
相关资讯
【干货书】计算机科学离散数学,627页pdf
专知
54+阅读 · 2020年8月31日
卷积神经网络数学原理解析
算法与数学之美
19+阅读 · 2019年8月23日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
421页《机器学习数学基础》最新2019版PDF下载
独家 | 一文读懂人工神经网络
数据派THU
11+阅读 · 2018年2月1日
微信扫码咨询专知VIP会员