作者:Yura
来源:Yura不说数据说
今天,Yura将带大家挖掘一下Yura与另外两个好友的微信群聊中蕴含的有趣信息。
首先看到,我们的群名是“新世纪独立女性养成研究所”,我们的口号是“男人都是大猪蹄子”!两位好友分别是“润贻”和不愿意透露姓名的“美少女”同学(不慌,文末有惊喜,嘻嘻)。
本次分析总共摘取了微信群从2018年3月9日至2018年7月30日共计144天的聊天内容,感谢淘宝卖家提供给我的强大工具“苹果恢复大师”,在经过将近一小时的扫描备份之后,抓取了比较满意的内容,包括文本信息、图片、语音、视频甚至链接等大部分信息。
老师果然没骗我,在一次数据分析的项目中,数据清洗至少要占80%的时间,我用实际行动为老师提供了又一个血淋淋的真实案例 T.T
一开始我想得很简单,希望能做出一个漂亮的词云。这就需要删除文本信息中一些链接和图片等“乱码”,不过在删除过程中,我发现乱码也有一些信息可挖掘(等下再说),于是我边删除边记录,也得到了不少意料之外的收获。这两个小时也是值得的!
1.聊天频率分析
首先我们来看一下,在这144天3456小时207360分钟之内,我们一共产生了几条消息:
你没看错,我们约以4分钟一条消息的速度产生信息。
本人,很光荣地,以39%的比例荣获本群“话痨”称号。
但是我们可以看到我们三个人的发言频率大致相似,用行业话来说就是方差较小。
但在真实生活中,认识我们仨的共同好友肯定不会给我们的文静/活泼程度打上差不多的分数。这可以侧面反映:
如果这个群有第四个人存在的话,那TA肯定会被吵死...
不过,根据我上文的规律,我觉得TA加入我们的“叽叽喳喳”的行列之中的可能性更大!
从上图可知,我们的聊天频率,真的比股票还稳呀!
三月偏低是因为我的聊天记录是从3月9日开始记录的,如果加上3月1日到3月8日这9天时间,应该会上升一点。
至于六月份的略微下滑,我只能(假装)归结于我们这个月减少了百分之十的聊天时间,去复习期末考啦!
我们在3月12日的聊天频率是最高的。
这究竟是什么特殊的日子?
原来润贻同学在这一天做出了尝试申请去德国交换学习的决定!因为我有经验,她就问了我许多相关的问题。
接下来我们从学习谈到了人生,谈了以后的工作,幻想如何成为富婆,最后以相约打耳洞结束...
不知道大家有没有发现,我们在聊天的时候,经常是这一秒忘了上一分钟说了什么话题。翻翻聊天记录,我经常的内心os是:“嗯?为什么突然说到这?卧槽,这也能扯到?!”当时的心路历程恐怕不是几段跳跃的聊天记录文字能够回忆起来的。所以说:
女生之间的聊天话题总是飞崖式跳跃的。
(第二条规律了!)
那么我们在一天中的哪个时间段聊天频率最高呢?
上图是我按照聊天小时来统计的,可以看到,中午休息和晚上睡前是我们聊天频率的高峰期。这也很合理,大家都是学生嘛, 白天总是有课要上。
但是我就想不明白了。
为什么凌晨两点三点四点五点,也都是有数据的呢?
上图看似是0,其实,下图才是真相:
可能...嗯...是有人睡不着,在群里大发“我失眠了!怎么办?”之类的牢骚吧...
2.聊天内容分析
分析完了聊天频率,下面看一看我们这一天天的,到底聊了啥?
以上,就是我们肤浅而真实的日常(微笑)
不过仔细看看,从中我们可以悄悄地分析出:
我和润贻同学是淘宝的常客
美少女同学有一段时间沉迷抖音(因为虽然比重大,但是频次不高)
润贻同学很喜欢刷微博消磨时间
我们三个都是音乐girl(hey yo, what's up!)
最后的最后,感谢润贻同学和美少女允许我使用宝贵的聊天记录,笔芯两位小可爱!喔,我也可爱。
<< 滑动查看下一张图片 >>
出镜:Yura 润贻 美少女
往期精彩:
公众号后台回复关键字即可学习
回复 爬虫 爬虫三大案例实战
回复 Python 1小时破冰入门
回复 数据挖掘 R语言入门及数据挖掘
回复 人工智能 三个月入门人工智能
回复 数据分析师 数据分析师成长之路
回复 机器学习 机器学习的商业应用
回复 数据科学 数据科学实战
回复 常用算法 常用数据挖掘算法
你最“好看”,你可以点