Data is the most powerful decision-making tool at our disposal. However, despite the exponentially growing volumes of data generated in the world, putting it to effective use still presents many challenges. Relevant data seems to be never there when it is needed - it remains siloed, hard to find, hard to access, outdated, and of bad quality. As a result, governments, institutions, and businesses remain largely impaired in their ability to make data-driven decisions. At the same time, data science is undergoing a reproducibility crisis. The results of the vast majority of studies cannot be replicated by other researchers, and provenance often cannot be established, even for data used in medical studies that affect lives of millions. We are losing our ability to collaborate at a time when significant improvements to data are badly needed. We believe that the fundamental reason lies in the modern data management processes being entirely at odds with the basic principles of collaboration and trust. Our field needs a fundamental shift of approach in how data is viewed, how it is shared and transformed. We must transition away from treating data as static, from exchanging it as anemic binary blobs, and instead focus on making multi-party data management more sustainable: such as reproducibility, verifiability, provenance, autonomy, and low latency. In this paper, we present the Open Data Fabric, a new decentralized data exchange and transformation protocol designed from the ground up to simplify data management and enable collaboration around data on a similar scale as currently seen in open-source software.


翻译:然而,尽管世界上生成的数据数量成倍增长,并被有效使用,但仍然存在许多挑战。相关数据在需要时似乎从未出现过,因为数据仍然分散、难以找到、难以获取、过时和质量差。因此,政府、机构和企业在作出数据驱动决策的能力方面仍然大为受损。与此同时,数据科学正在经历一种可复制的危机。绝大多数开放的软件研究的结果无法被其他研究人员复制,即使用于影响数百万人生活的医学研究的数据也往往无法建立来源。在数据急需显著改进的时候,我们正在丧失合作能力。我们认为,根本原因在于现代数据管理过程完全不符合合作和信任的基本原则。我们的领域需要从根本上改变如何看待数据、如何共享和改变数据的方法。我们必须从将目前将数据视为静态,从将数据作为原始数据交换,而将数据作为影响数百万人的医学研究使用。我们正文正在丧失合作能力,而是侧重于使多方的简化数据管理变得更可持续。 如此简单化的数据管理,我们不得不将数据转换为可变现的可变化和可变化的数据,也就是以易变现的可变化的数据管理。

2
下载
关闭预览

相关内容

专知会员服务
17+阅读 · 2020年9月6日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2022年1月14日
Fantastic Data and How to Query Them
Arxiv
0+阅读 · 2022年1月13日
Arxiv
9+阅读 · 2021年10月5日
Arxiv
126+阅读 · 2020年9月6日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
3+阅读 · 2016年2月24日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
专知会员服务
17+阅读 · 2020年9月6日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
计算机 | 中低难度国际会议信息6条
Call4Papers
7+阅读 · 2019年5月16日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
相关论文
Arxiv
0+阅读 · 2022年1月14日
Fantastic Data and How to Query Them
Arxiv
0+阅读 · 2022年1月13日
Arxiv
9+阅读 · 2021年10月5日
Arxiv
126+阅读 · 2020年9月6日
Learning From Positive and Unlabeled Data: A Survey
Arxiv
5+阅读 · 2018年11月12日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
3+阅读 · 2016年2月24日
Arxiv
6+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员