Python 爬取周杰伦《Mojito》MV 弹幕,这个评论亮了!

2020 年 6 月 14 日 CSDN

作者 | 黄伟呢

来源 | 数据分析与统计学之美

6月12日凌晨0点,周杰伦最新单曲《Mojito》正式上线,仅上线1小时销售量就超过百万张,预计今天这首单曲的销量仍然会继续攀升。这次新歌的歌名叫做《Mojito》,翻译成中文是莫吉托,一种巴西鸡尾酒,怪不得观看这首歌MV的时候,感受到一股很浓烈的异域风情呢。
杰伦的上一首单曲《说好不哭》是在2019.9发布的,这首歌是与老搭档方文山搭档的歌曲,当时这首歌在QQ音乐上的销量超过了1500万张,创造历史新高。而新歌《Mojito》则是与另外一位搭档黄俊郎合作的单曲,相信这首歌肯定也会有不错的销量。
好了回归到正题,既然这首歌大家反应这么大,那么大家都是怎么评论这首歌曲的呢?我们爬取了B站上面的弹幕数据,看看粉丝们都说了什么。


B站弹幕的爬取


B站的网页确实变化的很快,我还记得5月份的时候,弹幕的接口数据还找得到。然而今天我找了好久都没有找到,难道是今天的状态不行?没关系,在网页中虽然没找的这个弹幕数据的接口,但是我们之前找到了,我们直接拿过来用就好了。
爬取B站弹幕数据的API:https://api.bilibili.com/x/v1/dm/list.so?oid=XXX
从上述网址中我们看到了一个叫做oid的东西,后面是一串数字,不同的网页有着不同的数字串,因此我这里用“XXX”代替了。我们现在就要思考的是,这个oid我们应该怎么获取呢?不要着急下面带大家一步步查找。
我们要想知道这个oid是什么,首先要获取到cid。弹幕数据的接口我们虽然找不到,但是目录页接口还是可以找到的,网址如下。通过这个网址我们可以获取到我们要的那个cid,cid这个键对应的值,就是我们要的oid数字串。
https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp
注意:由于这个MV只有一个完整的视频,所以这里只有一个cid,如果一个视频是分不同小节发布的,这里就会有多个cid,不同的cid代表不同的视频。
我们将上面接口的url地址和拿到的oid数字串进行拼接,就可以得到这首MV弹幕的真正地址啦,现在把地址提供给大家。我们只需要请求这个网址,解析网页后就可以获取我们想要的数据啦。
https://api.bilibili.com/x/v1/dm/list.so?oid=201056987
这里还有最后一点需要提醒大家的。观察目录页的那个接口(网址如下),里面有一串字符串BV1PK4y1b7dt,我们先不管这个参数是什么,我们只关心这个字符串从哪里来的呢?
https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp
最后我们观察这首MV的原始网址(网址如下),原来这个字符串就在这首MV的原始网址中。好了,说到这里,我就将B站弹幕数据爬取的一些参数的来龙去脉,给大家讲清楚了,下面我们开始代码部分吧。
https://www.bilibili.com/video/BV1PK4y1b7dt?t=1
代码如下:
  
  
    
    
    
      
import requests
import json
import chardet
import re
from pprint  import pprint
# 1.根据bvid请求得到cid
def get_cid():
    url =  'https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp'
    res = requests.get(url).text
    json_dict = json.loads(res)
     #pprint(json_dict)
     return json_dict[ "data"][ 0][ "cid"]

# 2.根据cid请求弹幕,解析弹幕得到最终的数据
"""
注意:哔哩哔哩的网页现在已经换了,那个list.so接口已经找不到,但是我们现在记住这个接口就行了。
"""

def get_data(cid):
    final_url =  "https://api.bilibili.com/x/v1/dm/list.so?oid=" + str(cid)
    final_res = requests.get(final_url)
    final_res.encoding = chardet.detect(final_res.content)[ 'encoding']
    final_res = final_res.text
    pattern = re.compile( '<d.*?>(.*?)</d>')
    data = pattern.findall(final_res)
     #pprint(final_res)
     return data

# 3.保存弹幕列表
def save_to_file(data):
     with open( "dan_mu.txt", mode= "w", encoding= "utf-8"as f:
         for i  in data:
            f.write(i)
            f.write( "\n")

cid = get_cid()
data = get_data(cid)
save_to_file(data)
结果如下:


词云图的制作


  
  
    
    
    
      
# 1 导入相关库
import pandas  as pd
import jieba
from wordcloud  import WordCloud
import matplotlib.pyplot  as plt
from imageio  import imread

import warnings
warnings.filterwarnings( "ignore")

# 2 读取文本文件,并使用lcut()方法进行分词
with open( "dan_mu.txt",encoding= "utf-8"as f:
    txt = f.read()
txt = txt.split()
data_cut = [jieba.lcut(x)  for x  in txt]
data_cut
# 3 读取停用词
with open( r"G:\6Tipdm\wordcloud\data\stoplist.txt",encoding= "utf-8"as f:
    stop = f.read()
stop = stop.split()
stop = [ " ", "道", "说道", "说"] + stop
# 4 去掉停用词之后的最终词
s_data_cut = pd.Series(data_cut)
all_words_after = s_data_cut.apply( lambda x:[i  for i  in x  if i  not  in stop])
# 5 词频统计
all_words = []
for i  in all_words_after:
    all_words.extend(i)
word_count = pd.Series(all_words).value_counts()
# 6 词云图的绘制
# 1)读取背景图片
back_picture = imread( r"G:\6Tipdm\wordcloud\jay1.jpg")

# 2)设置词云参数
wc = WordCloud(font_path= "G:\\6Tipdm\\wordcloud\\simhei.ttf",
               background_color= "white",
               max_words= 2000,
               mask=back_picture,
               max_font_size= 200,
               random_state= 42
              )
wc2 = wc.fit_words(word_count)

# 3)绘制词云图
plt.figure(figsize=( 16, 8))
plt.imshow(wc2)
plt.axis( "off")
plt.show()
wc.to_file( "ciyun.png")
结果如下:
从词云图可以看到,整个弹幕屏幕都是表达了粉丝对于《Mojito》这首歌的热爱,可能有些词语显得有些莫名其妙,像震动、手机等词语,但是看过MV的人都知道确实都是赞美之词。
首先,啊啊啊这个感叹词出现的次数是最多的,难道大家是刚刚听到这首歌,惊喜之情无法用言语来表达?只好借用这样的感叹词来表达自己内心的激动?这可不是我的风格,我要是喜欢就会用直白的话表达出来。
其次,手机、震动这样的词出现的也很多。我刚刚看到这样的词语时候,我很莫名其妙。一首新歌MV和手机震动有啥关系呢?这原来是一个梗,恕我当时也没怎么关注,含义就是:周杰伦新歌销量太好,网友调侃便说杰伦手机一直在震动。如果你也不知道这是一个什么梗,提供一个网址给大家了解一下。
https://www.ixiumei.com/a/20190917/364084.shtml
我们还可以注意到,有一个词的频率出现次数也是很高的,那就是爷青回。哈哈,刚刚看到这个词语的人肯定是很懵逼的,这是什么意思呢?其实就是爷的青春回来了的意思。不得不说周杰伦的歌确实影响了我们这一代人,新歌一发布,不少人感叹:杰伦,回不去了吗?虽然我们的年纪在慢慢长大,但是我们却始终习惯停留在青春的状态。
当然像爱、好听、粉、亿遍这样的词语大家也都知道是什么意思,我也就不详细说明了,总的来说从整个词云图来看,基本上是0差评。《Mojito》整首歌给我的感觉就是节奏欢快,周杰伦虽然成了无数人的青春,不少人也是感叹青春回不去了吗?但是在这个炎炎夏日聆听这首欢快的歌曲,也是及其不错的。

更多精彩推荐

那些被大数据时代抛弃的人

反转!物联网火爆,开发者却太难了!

TypeScript 热度超 C 与 Python、Go 开发收入高、运维吃香,调查了 65000 名开发者有这些发现!

一篇与众不同的 String、StringBuilder 和 StringBuffer 详解

利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

赠书 | 供应链金融模式有哪些?区块链在供应链金融中如何应用?

你点的每个“在看”,我都认真当成了喜欢
登录查看更多
0

相关内容

流畅的Python 中英文版 PDF 高清电子书
专知会员服务
80+阅读 · 2020年8月2日
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【ICMR2020】持续健康状态接口事件检索
专知会员服务
17+阅读 · 2020年4月18日
【课程】浙大陈华钧教授《知识图谱导论》课程系列PPT
专知会员服务
170+阅读 · 2019年10月29日
【电子书推荐】Data Science with Python and Dask
专知会员服务
43+阅读 · 2019年6月1日
Python用于NLP :处理文本和PDF文件
Python程序员
4+阅读 · 2019年3月27日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
干货 | Python 爬虫的工具列表大全
机器学习算法与Python学习
10+阅读 · 2018年4月13日
Python 爬虫实践:《战狼2》豆瓣影评分析
数据库开发
5+阅读 · 2018年3月19日
京东商品评论情感分析:数据采集与词向量构造方法
数据挖掘入门与实战
5+阅读 · 2017年12月19日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
使用 Python 绘制《星战》词云
Datartisan数据工匠
3+阅读 · 2017年8月31日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
9+阅读 · 2018年5月7日
Arxiv
9+阅读 · 2018年3月23日
Arxiv
12+阅读 · 2018年1月28日
VIP会员
相关资讯
Python用于NLP :处理文本和PDF文件
Python程序员
4+阅读 · 2019年3月27日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
干货 | Python 爬虫的工具列表大全
机器学习算法与Python学习
10+阅读 · 2018年4月13日
Python 爬虫实践:《战狼2》豆瓣影评分析
数据库开发
5+阅读 · 2018年3月19日
京东商品评论情感分析:数据采集与词向量构造方法
数据挖掘入门与实战
5+阅读 · 2017年12月19日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
使用 Python 绘制《星战》词云
Datartisan数据工匠
3+阅读 · 2017年8月31日
如何用Python做舆情时间序列可视化?
CocoaChina
11+阅读 · 2017年7月21日
相关论文
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
9+阅读 · 2018年5月7日
Arxiv
9+阅读 · 2018年3月23日
Arxiv
12+阅读 · 2018年1月28日
Top
微信扫码咨询专知VIP会员