用过网易云音乐听歌的朋友都知道，网易云音乐每首歌曲后面都有很多评论，热门歌曲的评论更是接近百万或者是超过百万条．现在我就来分享一下如何爬取网易云音乐歌曲的全部评论，由于网易云音乐的评论都做了混淆加密处理，因此我们需要深入了解它的加密过程之后才能爬取到网易云音乐歌曲的全部评论．

一，首先分析数据的请求方式

网易云音乐歌曲页面的URL形式为https://music.163.com/#/song?id=歌曲id号,这里我用Delacey的Dream it possible 为例进行讲解,它的URL为https://music.163.com/#/song?id=38592976.接下来开始分析数据的请求方式.

由于网易云音乐的评论是通过Ajax传输，我们打开浏览器的开发者工具(检查元素)，选中控制面板中的Network,再点击XHR(捕获ajax数据)，然后点击左上角的重新加载，会看到下面图片中的数据请求列表

点击R_SO_4_38592976?csrf_token=cdee144903c5a32e6752f50180329fc9这一行,再点击Preview

发现我们所需要的数据就在这json格式的数据中,其中comments中是第一页的全部评论,一共20条,hotcomments是精彩评论一共有15条,每首歌曲只有第一页评论才有精彩评论.接着看一下它的请求头,点击Headers

我们发现的它是个post请求,向下滑你会发现这个post请求还带有数据

这些数据都是经过加密处理的,因此我们需要分析它的加密过程来生成相应的参数,然后把加密后的参数加到post请求中才能获取到我们需要的评论数据.

二,分析加密过程

通过断点调试发现params和encSecKey是由js脚本中的window.asrsea()函数生成的.

我们发现window.asrsea()函数有4个参数,在浏览器的js控制台分别对这四个参数进行调试:

后面三个参数是定值,只有第一个参数是控制评论页面偏移量的参数,它是一个变量.笔者经过分析发现第一个参数的形式是:

下面我来详细讲解这个变量的发现过程:

首先找到core_dfe56728795d119e4d476fd09ea2dc51.js这个js脚本,然后将断点打在第12973行,点击第一页评论,页面加载到断点处便停止了

这是第一页的i1x的值,接下来看第二页的(需要点击第2页,然后输入i1x的值):

通过这几页的分析,我们可以得到i1x值的变化规律,且可以得到它的一般形式:

offset和limit是必选参数,其他参数是可选的,其他参数不影响data数据的生成,offset (页面偏移量) = (页数-1) * 20, 注意limit最大值为100,当设为100时,获取第二页时,默认前一页是20个评论,也就是说第二页最新评论有80个,有20个是第一页显示的.因此我们可以构造第一个参数为: