Python爬取B站5000条视频,揭秘为何千万人为它流泪

2019 年 8 月 12 日 AI100

作者 | Yura
编辑 | 胡巍巍
来源 | CSDN(ID: CSDNnews)

导语:我们特邀作者Yura爬取B站5000条视频,为你揭秘电影《哪吒》的更多“优秀梗”,看完还能Get新技能,赶快往下滑吧。

这个夏天,《哪吒之魔童降世》碾压其他暑期档电影,成为最强黑马。我身边的朋友,不是已经N刷了这部电影,就是在赶去N刷的路上。从票房上也可窥见一斑:


  • 上映第 1 天:89分钟,中国动画最快破1亿纪录。

  • 上映第 2 天:中国影史首部单日票房破2亿的动画电影。

  • 上映第 4 天:中国影史第66部破10亿影片!

  • 上映第 8 天:正式登顶!破16亿,超过《疯狂动物城》,创中国影史动画电影票房新纪录!

  • 截止今日《哪吒之魔童降世》的票房已经突破了33亿啦!预测票房达44亿!


我和朋友在前几天也去电影院支持了一下,当初只觉得国漫不容易,支持一下吧。看完之后觉得,国漫做到这样的剧情、特效、音乐,是真的很不容易!
这部影片制作过程历时5年,磨合了66个版本,共有1800多个镜头,还包含1400多个特效镜头。饺子导演,respect!
同样值得Respect的还有B站UP主们,动漫属性极强的B站在电影上映之后涌现了大量的相关视频。
搜索“哪吒之魔童降世”可以看到视频信息,今天我就来爬一爬,看看B站UP主们是如何对这部优秀的作品进行再创新的。

数据爬取

在浏览器开发者模式CTRL+F很容易就能找到所需要的信息,就在页面源码中:
因此我们用beautifulsoup库就能快速方便地获取想要的信息啦。
因为B站视频数量有限定,每次搜索只能显示20条*50页=1000个视频信息。
为了尽可能多的获取视频信息,我另外还选了“最多点击”“最新发布”“最多弹幕”和“最多收藏”4个选项。


  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=totalrank&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=click&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=stow&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=dm&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=pubdate&duration=0&tids_1=0&page={}


5个URL,一共爬取5000条视频,去重之后还剩下2388条信息。
为了得到“转评赞”数据,我还以视频id里面的数字(去掉“av”)为索引,遍历访问了每个视频页面获取了更详细的数据,最终得到以下字段:
在后续划词云的时候还爬取了部分视频的弹幕详情,具体爬取过程和思路可以在我的另一篇文章中看( https://mp.weixin.qq.com/s/6IQO5nVy22qg73kIzCmHvw ),但是我最近发现firefox也不显示弹幕页面cookie信息了,于是我尝试使用了B站其他页面的cookie,居然成了~


数据分析

电影在7月18、19日就进行了全国范围的点映,正式上映时间为7月26日,在这之后相关视频数量有明显的上升。
在这时间之前的,最早发布时间可以追溯到2018年11月份,大部分都是预告类视频:
在8月7日之后视频数量猛增,单单8月7日一天就新上传了319个相关视频。
从标题名字中我们可以大致了解视频的内容:
毫无疑问,“哪吒”和“敖丙”作为影片两大主角是视频的主要人物;因为他们同生共患难的情谊,“藕饼”(“哪吒+敖丙”组合)也是视频的关键词;除此之外,“国漫”也是一大主题词,毕竟我们这次是真正地被我们的国产动漫震撼到了。
从视频分类来看,我们发现“影视剪辑”“国产原创相关”和“绘画”是三个主要类型,占据了总视频的40%以上。看了几个绘画类型的视频,我理解了什么叫做“高手在人间”。
超过一半的视频时长都在3分钟之内,但是也有些视频长达2个小时多,长视频大部分都是一些教学类视频(绘画、建模等)。大家都说喜欢在B站上学习,免费还无广告,诚不欺我。
那这么多视频到底质量怎么样,不能仅凭我一人之言,看看有雪亮眼睛的观众是怎么反馈的👇
注:横坐标代表点赞数量,纵坐标代表收藏数量,气泡大小表示金币数量。
从明显的线性规律和从左到右逐渐变大的气泡可看出,大家深谙“一条龙”服务定理(点赞+收藏+投币),上道儿~
右上角那个特别突出的视频是《戏腔燃炸了!哪吒原创曲《我命不由天》(古风MV付)哪吒之魔童降世》,是由一个三人团队创作的原创曲目,观看数159w+,点赞超过1我命w,收藏12w+,投币14w!表演者居然把尤克里里弹出琵琶的感觉,果然是才华限制了我的想象力。
刚刚是全局观看,那么细分种类的话,大家都偏好哪种类型的视频呢?
注:TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围内的强势或弱势,超过100即表示特征明显。本次计算公式(以金币数TGI为例)=某一类型视频金币总数占比/该类型视频数量占比
按照金币数TGI排序,我们发现“原创音乐”以1551的超高指数占据榜首,“趣味科普人文”虽然视频数量占比不高,但是用户的投币数量还是很可观的。
排名第三的“单机游戏”,我开始还一脸懵,这电影和游戏也能扯上关系?
直到我打开视频之后,那些用“模拟人生”“我的世界”做出来的如同电影般的画面,我…膝盖不保。怎么着?神仙也上B站?
图取自UP主:白小久丶
传送门:https://www.bilibili.com/video/av61606846
弹幕数量最多的视频是《【哔哔Q第3期】哪吒续作预定?打破成见,做自己的英雄!》,这是关于影片导演饺子的一段采访,从大家的弹幕里面可以看出大家对这部电影的看法:
哪吒可爱敖丙(饼)帅不用多说,“加油”“期待”表达了观众对导演的鼓励。
视频中导演饺子非常谦虚,说“觉得我们现在还不配得到那么多粉丝”,满屏“配”字表明了大家最硬核的支持。



最后的最后

看完了这部电影,大家都有一种“国漫崛起”的感慨。
除了是观众的福利,我觉得这更是对中国千千万万艺术创作者的鼓励。
打造中国自己的封神宇宙,我们已经迈出了第一步啦。
源码:https://github.com/PengYura/Bilibli-
作者:Yura,计算机科学与技术专业毕业生,因在澳洲交换学习接触了大数据,甚感兴趣。遂开公众号“Yura不说数据说”督促自己学习数据分析!欢迎大家关注我的个人公众号,一起(监督我)学习。

(*本文为 AI科技大本营转载文章,转载请联系作者)


精彩推荐



AI ProCon 2019 邀请到了亚马逊首席科学家@李沐,在大会的前一天(9.5)亲授「深度学习实训营」 ,通过动手实操,帮助开发者全面了解深度学习的基础知识和开发技巧。
 

9大技术论坛、60+主题分享,百余家企业、千余名开发者共同相约 2019 AI ProCon!技术驱动产业,聚焦技术实践,倾听大牛分享,和万千开发者共成长。5折优惠票抢购中!
     

社群福利

扫码添加小助手,回复:大会,加入2019 AI开发者大会福利群,每周一、三、五 更新学习资源、技术福利,还有抽奖活动~


推荐阅读

你点的每个“在看”,我都认真当成了喜欢


登录查看更多
0

相关内容

电影是一种视听媒介,利用胶卷、录像带或数位媒体将影像和声音捕捉,再加上后期的编辑工作而成。
【2020新书】实战R语言4,323页pdf
专知会员服务
100+阅读 · 2020年7月1日
知识神经元网络 KNN(简介),12页pdf
专知会员服务
14+阅读 · 2019年12月25日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
资源 | 李航老师《统计学习方法》(第2版)课件下载
专知会员服务
249+阅读 · 2019年11月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
抖音爬虫
专知
3+阅读 · 2019年2月11日
成人网站PornHub爬虫分享(一天可爬取500万以上的视频)
互联网架构师
16+阅读 · 2018年5月23日
百万英雄直播答题辅助系统,非OCR实现
数据挖掘入门与实战
4+阅读 · 2018年1月31日
年度增速黑马快视频 是谁将它推向神坛
Analysys易观
4+阅读 · 2018年1月26日
AI算法起家的今日头条为何败给了色情?
大数据技术
4+阅读 · 2018年1月5日
别@微信团队了,我用Python给自己戴上了圣诞帽!
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关VIP内容
相关资讯
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
抖音爬虫
专知
3+阅读 · 2019年2月11日
成人网站PornHub爬虫分享(一天可爬取500万以上的视频)
互联网架构师
16+阅读 · 2018年5月23日
百万英雄直播答题辅助系统,非OCR实现
数据挖掘入门与实战
4+阅读 · 2018年1月31日
年度增速黑马快视频 是谁将它推向神坛
Analysys易观
4+阅读 · 2018年1月26日
AI算法起家的今日头条为何败给了色情?
大数据技术
4+阅读 · 2018年1月5日
别@微信团队了,我用Python给自己戴上了圣诞帽!
Top
微信扫码咨询专知VIP会员