Data curation is the process of making a dataset fit-for-use and archiveable. It is critical to data-intensive science because it makes complex data pipelines possible, makes studies reproducible, and makes data (re)usable. Yet the complexities of the hands-on, technical and intellectual work of data curation is frequently overlooked or downplayed. Obscuring the work of data curation not only renders the labor and contributions of the data curators invisible; it also makes it harder to tease out the impact curators' work has on the later usability, reliability, and reproducibility of data. To better understand the specific work of data curation -- and thereby, explore ways of showing curators' impact -- we conducted a close examination of data curation at a large social science data repository, the Inter-university Consortium of Political and Social Research (ICPSR). We asked, What does curatorial work entail at ICPSR, and what work is more or less visible to different stakeholders and in different contexts? And, how is that curatorial work coordinated across the organization? We triangulate accounts of data curation from interviews and records of curation in Jira tickets to develop a rich and detailed account of curatorial work. We find that curators describe a number of craft practices needed to perform their work, which defies the rote sequence of events implied by many lifecycle or workflow models. Further, we show how best practices and craft practices are deeply intertwined.
翻译:数据整理是使数据集适合使用和归档的过程。 数据密集科学对于数据密集科学至关重要,因为它使复杂的数据管道成为可能,使研究可以复制,并使数据(再)可以使用。 然而,数据整理的实践、技术和知识工作的复杂性经常被忽视或淡化。 数据整理工作不仅使数据整理者的劳动和贡献变得无形; 也使得更难取笑整理者的工作对后来数据的可使用性、可靠性和可复制性的影响。 为了更好地了解数据整理的具体工作,从而探索显示整理者影响的方法,我们在大型社会科学数据库、大学间政治和社会研究联合会(ICPSR)对数据整理工作的复杂性进行了仔细审查。 我们问道,比较方案的工作意味着什么,不同利益攸关方和不同背景下如何更深地看得清哪些工作? 如何在整个组织中协调整理工作? 我们从一个数据整理过程的分类中,从一个丰富的整理过程到一个需要的整理过程的整理过程,我们从一个详细整理过程的整理过程,到一个我们从一个详细整理过程的整理过程的整理过程,我们从一个我们从一个详细整理过程的整理过程到一个需要的整理过程记录中,我们从一个细化的整理过程的整理过程到一个我们从一个细的整理过程的整理过程到一个我们从一个需要的整理过程的整理过程到一个需要的整理过程的整理过程的整理过程的记载到一个我们从一个细细的整理过程的整理过程的记载到一个细的记载到一个过程。 我们问, 我们问, 的整理过程的记载到一个我们问道, 的记载到一个我们问, 的整理工作,什么, 的整理工作是什么, 的整理工作是什么, 的整理工作是什么,什么,什么是如何更或更深入的整理工作是什么,, 的,,在比较或更或更或更或更或更清楚的整理工作, 如何能如何能如何在不同的过程是如何的 的 的 如何在不同的过程, 如何的整理工作是如何的计算工作, 的 的计算工作是如何更更细的计算过程,我们从一个更细的整理过程, 如何的 如何的整理工作,我们更更更细的整理过程的整理工作,我们从一个更细的整理过程的整理过程,我们从一个更细的整理过程,我们更细的整理过程的