介绍
我们对社交网络的体验在短暂的瞬间中闪过,通常不会再回头。在Instagram上点赞照片,在Facebook上分享别人发布的帖子,或者在WhatsApp上给朋友发消息,不管是什么具体的互动,我们只做一次,之后可能就不会再去想它了。 但从刷屏、点击到状态更新,我们的在线生活正被社交媒体公司捕捉,并被一些世界上最大的数据服务器使用。我们产生的数据比以往任何时候都多。从整体上看这些数据点,我们可以对人类行为有更深刻的了解。我们还可以调查这些系统所造成的危害,从检测虚假的在线参与者(例如,自动的机器人账户或散布错误信息的虚假档案)到理解算法是如何随着时间的推移向浏览者展示有问题的内容。如果我们一起看这些数据点,我们可以发现模式、趋势或异常,并希望能更好地理解我们在网上认识和塑造人类体验的方式。这本书旨在帮助那些想要从简单地观察社交网络的一个帖子或推特,在更大的,更有意义的范围内理解它的人。
什么是数据分析?
任何数据分析师的主要目标都是从大量信息中获得有用的观点。我们可以把数据分析看作是采访大量记录的一种方式:我们可以询问不寻常的单个事件,或者我们可以观察长期趋势。了解一个数据集可能是一个漫长的过程,有各种曲折:它可能需要几种不同的方法来找到我们的问题的答案,同样的,它可能需要几个不同的会见来了解受访者。 即使我们的问题简单而集中,要得到答案仍然需要我们做出一些逻辑上和哲学上的抉择。什么样的数据集可以用来检查我们自己的行为,以及我们如何获得这些数据?如果我们想要确定一个Facebook帖子的受欢迎程度,我们会用反应的数量(喜欢,hahas, wow,等等)来衡量吗?收到的评论的数量,还是两种指标的组合?如果我们想要更好地了解人们如何在Twitter上讨论一个特定的话题,对相关的tweet进行分类的最佳方式是什么? 因此,虽然分析数据需要一定的技术技巧,但它也是一个创造性的过程,需要我们有意识地、知情地使用我们的判断。换句话说,数据分析既是科学也是艺术。
谁适合使用这本书?
这本书是为那些以前几乎没有编程经验的人写的。考虑到社会媒体、互联网和技术在我们生活中的巨大作用,这本书旨在以一种容易理解和直接的方式探索它们。通过实践练习,您将学习编程、数据分析和社交网络的基本概念。在某种程度上,这本书的目标读者就像我以前的自己一样,一个对世界充满强烈好奇的人,但也被充满术语的论坛、会议和在线教程吓到了。我们将从宏观和微观两方面入手,研究社交网络的生态系统以及编写代码的细节。编程不仅仅是构建机器人或应用程序的一种方式:它是在一个越来越依赖技术的世界中满足你好奇心的一种方式。
内容概要
本书的各个章节都是按照数据探索的旅程来构建的。我们将从介绍如何以及在哪里从社交网络中找到数据开始。毕竟,我们需要数据才能进行分析!然后,在后面的章节中,您将学习处理、探索和分析我们挖掘的数据所必需的工具。
第一部分:数据挖掘
第一章:你需要知道的编程语言,介绍了前端语言(HTML, CSS和JavaScript),以及为什么它们在社交媒体数据挖掘中很重要。您还将通过交互式shell中的实践练习学习Python的基础知识。
第2章:从哪里获取数解释了什么是api,什么类型的数据可以通过它们访问,并指导您如何访问JSON格式的数据。本章还涵盖了为数据分析制定研究问题的过程。
第3章:用代码获取数据,向您展示了如何收集从YouTube API返回的数据,并使用Python将其从JSON重构为电子表格,特别是.csv文件。
第4章:抓取你自己的Facebook数据定义抓取和描述如何检查HTML以将内容从web页面结构成数据。本文还介绍了社交媒体公司为用户提供的数据存档,以及如何将数据提取到.csv文件中。
第5章:抓取实时站点的解释抓取网站的道德考虑,并带领你完成为维基百科页面撰写抓取的过程。
第二部分:数据分析