Epidemiologist, Scientists, Statisticians, Historians, Data engineers and Data scientists are working on finding descriptive models and theories to explain COVID-19 expansion phenomena or on building analytics predictive models for learning the apex of COVID-19 confimed cases, recovered cases, and deaths evolution curves. In CRISP-DM life cycle, 75% of time is consumed only by data preparation phase causing lot of pressions and stress on scientists and data scientists building machine learning models. This paper aims to help reducing data preparation efforts by presenting detailed schemas design and data preparation technical scripts for formatting and storing Johns Hopkins University COVID-19 daily data in HBase NoSQL data store, and enabling HiveQL COVID-19 data querying in a relational Hive SQL-like style.


翻译:流行病学家、科学家、统计学家、历史学家、数据工程师和数据科学家正在努力寻找描述模型和理论,以解释COVID-19扩张现象,或建立分析预测模型,以学习COVID-19同化病例、已发现病例和死亡演变曲线的顶点。在CRISP-DM生命周期中,75%的时间仅通过数据准备阶段来消耗,给科学家和数据科学家制造机器学习模型造成大量压力和压力。本文旨在通过在HBase NoSQL数据存储库中为约翰·霍普金斯大学COVID-19格式化和储存格式化和储存提供详细的系统设计和数据编制技术脚本,使HiveQL COVID-19数据查询与SQL类似风格的HiveQL数据,从而有助于减少数据编制工作。

0
下载
关闭预览

相关内容

【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
98+阅读 · 2019年12月4日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【电子书推荐】Data Science with Python and Dask
专知会员服务
44+阅读 · 2019年6月1日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Arxiv
112+阅读 · 2020年2月5日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关资讯
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Top
微信扫码咨询专知VIP会员