数据分析如何揭示冠状病毒的真相?

2020 年 2 月 13 日 CSDN

来源 | hackernoon

编译 | 火火酱,责编 | Carol

出品 | CSDN云计算(ID:CSDNcloud)

最近几天,似乎所有人都陷入了对新型冠状病毒(2019-nCoV)深深的恐惧中。几声咳嗽、低烧、或者仅仅是有点无精打采都可能会引起自己和身边人的担心。然而,新冠状病毒的真相到底是什么呢?
1月28日,有人发推特谎称在南加州大学(USC)的洛伦佐(Lorenzo)宿舍附近(该地中国留学生众多)确诊了一例新冠状病毒感染病例。随后,另有推特称其朋友的室友、兄弟、女友也都被感染了。不断有越来越多的人转发了该推特并在一定范围内引起了恐慌。最终,南加州大学出面澄清了这一谣言,证实并没有发现任何疑似或确诊病例。
当人们对真相一无所知时,谣言就会以这种方式迅速传播并最终取代真相被人信以为真。因此,作者认为有必要从多种官方和非官方的渠道收集信息,从而保持客观公正的态度。更重要的是,透明的数据来源能够帮助公众对这次疫情有一个客观且公正的认识。
本文旨在阐述从多方渠道收集到的可信数据。如果能收集到更加准确的信息,那么就能帮助大家了解事实真相并避免被极端观点束缚。

从主要渠道收集数据

作者决定通过Web爬虫工具从各网站中获取数据。在众多爬虫工具中,作者认为Octoparse是最好用的。最近,他们推出了一个新的抓取方法,能够从中国卫生部数据库中获取实时数据。每个人都可以更轻松地访问到数据,所以不需要像大多数抓取工具那样设定任务。
Octoparse: https://www.octoparse.com/


数据分析


作者收集了1月22日到2月4日这七天的数据。数据显示,感染病例在持续增加,且没有任何放缓迹象。但是,疑似感染病例数在稳步下降。这表明,在疑似病例被确诊之后,其总数也在持续减少。
然而,有些人或许会发现死亡人数有点奇怪。为此,作者查了相关数据并作了一些研究。结果显示,目前,湖北省的死亡率为2.7%,而中国其他地区的死亡率为0.19%。这意味着湖北的死亡率是其他地区的15倍。
在这种情况下,作者提出了两种可能导致死亡率差异如此之高的原因假设:
假设1:瞒报了实际感染病例数
反驳:如果该假设正确,那么实际感染人数应为死亡人数除以0.19%,等于288947人。这一结果与R0(用来衡量病毒传染性的指标)相矛盾。多数研究(Maclntyre, 2020)表明,本次疫情的R0在2到2.5之间,略高于季节性流感。因此,以新型冠状病毒的传染性,不至于在一个月内感染约30万人。
那么还有什么其他因素可能会导致如此高的死亡率呢?
假设2:由于医疗资源短缺,患者无法得到及时救治
这种说法有一定的道理。医疗用品、床位、和医护人员的短缺导致很多人都只能在家进行自我隔离,并且自我用药不当可能会加重病情。此外,新型冠状病毒对原本就有健康问题的老年人来说本身就是十分致命的了,更不用说如果没能及时接受适当的治疗,那么情况应该会更糟。
话虽这么说,但此次新型冠状病毒也不应像美国公众以为的那般吓人。因为美国的医疗资源比世界上多数国家都要更为丰富,所以我们真的不该如此害怕一个太平洋另一端的疾病。此外,美国政府已经禁止过去14天内在中国旅行的外国人入境(公民的直系亲属和永久居民除外)。另一方面,与新型冠状病毒相比,已经导致1900万人患病、1万人死亡的季节性流感更值得担忧。

新闻报道合集

作者还通过该爬虫工具从数十家媒体收集了自疫情爆发以来的新闻报道。
通过搜索“冠状病毒”一词,从《华尔街日报》、《纽约时报》和路透社搜罗了一些文章,并比较了这几种新闻媒体间的差异。
许多新闻都着重强调了此次疫情的严重程度,并淡化了诸如疑似感染数和痊愈数之类的其他指标。此类不全面的报道不仅会导致和加深民众对中国政府的错误印象,还会导致大家对病毒本身的错误认识。最终,当我们看到其他人咳嗽、感冒,甚至是和不同种族的同事握手时,都会变得十分多疑。
偶然间读到了沃尔特·米德(Walter Mead)发表在《华尔街日报》上的一篇文章。 该文的标题极度仇外,并且文章中包含了大量虚假信息。文中写道:“我们不知道这种新型冠状病毒会有多危险。有迹象表明中国政府仍在试图掩盖疫情的真实规模。”在该文章发表之日,世界贸易组织已经公布了“此次新冠状病毒R0在2左右,致死率低于3%,接近季节性流感”的发现。此外,没有任何证据表明中国政府曾试图隐瞒过任何事情。事实上,作者从中国政府网站的开源数据库中得到的数据与WHO、CDC、ECDE、NHC以及DXY的数据是一致的。虽然数据的准确性可能会受到其他一些因素的影响,但误差应该在允许范围之内,而不应受到世界主流媒体的质疑。
米德还上传了题为“共产主义冠状病毒”的视频。“共产主义”是政治用语。米德将其用作形容疾病的形容词。此外,视频将中国人为武汉加油的“武汉,坚持住!”加油声恶意翻译为武汉人被全面封锁后绝望地喊叫声。
这让我想起了1月31日的一条推文,一名亚裔女性说有人因为冠状病毒所以和她开有关握手的玩笑。 这并不是推特上流传的唯一与此有关的笑话。当成千上万的人正在经历着恐惧时,冠状病毒的爆发却成为了一种被用来歧视特定人群的娱乐内容。
就像20世纪80年代爆发的艾滋病恐慌导致了对LGBTQ人群的排斥和定罪一样,传染病被公众用来为偏见辩护。这难道还不足以引起人们的愤怒吗?
我想引用《洛杉矶时报》专栏作家弗兰克·施勇(Frank Shyong)的一句话: 想要彼此理解的意愿能够保护我们免受恐惧及其灾难性后果。我们不要夸大这种疾病的威胁,也不要主张国家中本就存在的种族主义态度。去了解事实真相,不要散布任何仇外言论,这才是我们心中的正义所在!
中国加油,武汉加油!
推荐阅读 
雷军亲曝小米 10 四大猛料!
小米 OV 联合起来才不是为了对抗 Google!
中文版开源!这或许是最经典的Python编程教材
升级到架构师,程序员无需过度关注哪些技能?| 程序员有话说
数据分析如何帮助揭示冠状病毒的真相?
2020年区块链领域最具影响力人物Top 20
你点的每一个在看,我认真当成了喜欢

猛戳“阅读原文”,填写中国远程办公-调查问卷

登录查看更多
0

相关内容

2019新型冠状病毒 (Novel coronavirus),为新兴传染病“严重特殊传染性肺炎”病原,由世界卫生组织命名为2019-nCoV,又名武汉冠状病毒(Wuhan coronavirus)、武汉肺炎(Wuhan pneumonia)等,是一种具有包膜的正链单股RNA冠状病毒。2019-2020年新型冠状病毒肺炎事件爆发期间,研究人员在对肺炎阳性患者样本进行核酸检测以及基因组测序后发现了这一病毒。 https://zh.wikipedia.org/wiki/2019%E6%96%B0%E5%9E%8B%E5%86%A0%E7%8B%80%E7%97%85%E6%AF%92
专知会员服务
146+阅读 · 2020年6月15日
计算机视觉用于新冠病毒COVID-19的控制综述,25页pdf
专知会员服务
52+阅读 · 2020年4月22日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
专知会员服务
27+阅读 · 2020年3月6日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
【Blood】去甲基化治疗失败后,MDS应如何治疗?
青光眼,哪里跑!
中科院之声
4+阅读 · 2018年7月9日
关于孩子的未来,汪涵和李锐想告诉你这些......
三联生活周刊
6+阅读 · 2017年10月28日
【宁波站】网络爬虫与文本挖掘
数萃大数据
5+阅读 · 2017年7月19日
Arxiv
110+阅读 · 2020年2月5日
ViZDoom Competitions: Playing Doom from Pixels
Arxiv
5+阅读 · 2018年9月10日
Arxiv
23+阅读 · 2018年8月3日
VIP会员
Top
微信扫码咨询专知VIP会员