【2020新书】社交媒体挖掘，212pdf，Mining Social Media

2020 年 7 月 30 日 专知

介绍

我们对社交网络的体验在短暂的瞬间中闪过，通常不会再回头。在Instagram上点赞照片，在Facebook上分享别人发布的帖子，或者在WhatsApp上给朋友发消息，不管是什么具体的互动，我们只做一次，之后可能就不会再去想它了。

但从刷屏、点击到状态更新，我们的在线生活正被社交媒体公司捕捉，并被一些世界上最大的数据服务器使用。我们产生的数据比以往任何时候都多。从整体上看这些数据点，我们可以对人类行为有更深刻的了解。我们还可以调查这些系统所造成的危害，从检测虚假的在线参与者(例如，自动的机器人账户或散布错误信息的虚假档案)到理解算法是如何随着时间的推移向浏览者展示有问题的内容。如果我们一起看这些数据点，我们可以发现模式、趋势或异常，并希望能更好地理解我们在网上认识和塑造人类体验的方式。这本书旨在帮助那些想要从简单地观察社交网络的一个帖子或推特，在更大的，更有意义的范围内理解它的人。

什么是数据分析？

任何数据分析师的主要目标都是从大量信息中获得有用的观点。我们可以把数据分析看作是采访大量记录的一种方式:我们可以询问不寻常的单个事件，或者我们可以观察长期趋势。了解一个数据集可能是一个漫长的过程，有各种曲折:它可能需要几种不同的方法来找到我们的问题的答案，同样的，它可能需要几个不同的会见来了解受访者。

即使我们的问题简单而集中，要得到答案仍然需要我们做出一些逻辑上和哲学上的抉择。什么样的数据集可以用来检查我们自己的行为，以及我们如何获得这些数据?如果我们想要确定一个Facebook帖子的受欢迎程度，我们会用反应的数量(喜欢，hahas, wow，等等)来衡量吗?收到的评论的数量，还是两种指标的组合?如果我们想要更好地了解人们如何在Twitter上讨论一个特定的话题，对相关的tweet进行分类的最佳方式是什么?

因此，虽然分析数据需要一定的技术技巧，但它也是一个创造性的过程，需要我们有意识地、知情地使用我们的判断。换句话说，数据分析既是科学也是艺术。

谁适合使用这本书？

这本书是为那些以前几乎没有编程经验的人写的。考虑到社会媒体、互联网和技术在我们生活中的巨大作用，这本书旨在以一种容易理解和直接的方式探索它们。通过实践练习，您将学习编程、数据分析和社交网络的基本概念。在某种程度上，这本书的目标读者就像我以前的自己一样，一个对世界充满强烈好奇的人，但也被充满术语的论坛、会议和在线教程吓到了。我们将从宏观和微观两方面入手，研究社交网络的生态系统以及编写代码的细节。编程不仅仅是构建机器人或应用程序的一种方式:它是在一个越来越依赖技术的世界中满足你好奇心的一种方式。

内容概要

本书的各个章节都是按照数据探索的旅程来构建的。我们将从介绍如何以及在哪里从社交网络中找到数据开始。毕竟，我们需要数据才能进行分析!然后，在后面的章节中，您将学习处理、探索和分析我们挖掘的数据所必需的工具。

第一部分：数据挖掘

第一章:你需要知道的编程语言，介绍了前端语言(HTML, CSS和JavaScript)，以及为什么它们在社交媒体数据挖掘中很重要。您还将通过交互式shell中的实践练习学习Python的基础知识。
第2章:从哪里获取数据，解释了什么是api，什么类型的数据可以通过它们访问，并指导您如何访问JSON格式的数据。本章还涵盖了为数据分析制定研究问题的过程。
第3章:用代码获取数据，向您展示了如何收集从YouTube API返回的数据，并使用Python将其从JSON重构为电子表格，特别是.csv文件。
第4章:抓取你自己的Facebook数据定义， 抓取和描述如何检查HTML以将内容从web页面结构成数据。本文还介绍了社交媒体公司为用户提供的数据存档，以及如何将数据提取到.csv文件中。
第5章:抓取实时站点的解释， 抓取网站的道德考虑，并带领你完成为维基百科页面撰写抓取的过程。

第二部分：数据分析

第6章:数据分析，导论介绍了涉及数据分析的各种过程，并通过分析来自自动帐户(bot)的数据介绍了谷歌表。
第7章:可视化数据探索可视化工具，如在谷歌表格中制作图表和使用条件格式突出显示数据变化，如何帮助我们更好地理解数据。
第8章:数据分析的高级工具，将您从分析谷歌表中的数据中学到的概念转移到编程分析领域。您将看到如何在Python 3中设置虚拟环境、浏览Jupyter笔记本(一个能够读取和运行Python代码的web应用程序)以及使用Python库panda。您还将研究数据集的结构和广度。
第9章:在Reddit数据中寻找趋势，以前一章为基础，介绍如何使用panda中的函数修改数据、过滤数据和运行基本聚合。
第10章:衡量政治参与者的Twitter活动，解释如何将数据格式化为时间戳，如何使用lambda函数更有效地修改它，以及如何在panda中对它进行时间上的重新采样。
第11章:从这里往哪里走，列出了用于成为更好的Python编码器、学习更多关于统计分析的知识以及使用自然语言处理和机器学习来解析文本的参考资料。