2017年9月5日的《科学数据》发表一篇名为If these data could talk的评论,指出数据格式化在科学研究中的重要性。
遵从W3C PROV-DM模型的简单起源图示。
Pasquier et al.
在过去的几十年间,以数据为中心的研究方法已经在许多科学领域扮演重要角色。开放数据与开源软件让新方法得以快速投入使用,帮助人们处理日益增多的海量数据。然而,在许多科学领域都存在重现率惨淡的现象。
来自美国哈佛大学的Thomas Pasquier与同事认为,造成这种局面的原因虽然来自许多维度,一个重要原因是,在描述这种点对点形式发表的结果时,从数据源到最终发表结果分析都缺少数据的格式化。即使作者尽一切努力让他们的研究和数据被更多人看到,格式化缺失将降低报告的清晰性与有效性,从而导致重现性问题。
为了满足日益上升的计算需求,各个科学领域的研究团队正把数据起源技术融入到他们的研究过程中来。
Photo Credit: A. Trisovic
为此,他们提出使用数据起源技术将数据格式化,系统、规范地记录数据源、过程、数据集、出版物和研究者之间的关系,帮助解决重现性问题。ⓝ
Scientific Data|doi:10.1038/sdata.2017.114
点击“阅读原文”免费下载并阅读评论文章
Greater future global warming inferred from Earth’s recent energy budget
相关文章