数据质量描述了数据满足特定需求并适合人类和/或下游任务(如人工智能)使用的程度。数据质量可以通过多个高层次概念进行评估,这些概念被称为“质量维度”,例如准确性、完整性、一致性或时效性。尽管已有大量研究以及诸如 ISO/IEC 25012 等标准化尝试对数据质量维度进行定义,但这些维度在实际应用中的意义仍常常不甚明晰。与研究工作并行发展的是,大量数据质量工具被开发出来,用于检测和缓解诸如缺失值或离群值等具体的数据质量问题。

本文旨在弥合数据质量理论与实践之间的鸿沟,系统性地将数据质量工具所提供的低层次功能与高层次质量维度进行关联,揭示它们之间的多对多关系。通过对七个开源数据质量工具的考察,我们提供了一份详尽的映射,展示了各项功能及其变体如何在一定程度上支持对单一质量维度的评估。这项系统性综述为实践者与研究人员提供了一个统一视角,帮助理解当前零散的数据质量检查生态,并为多维度质量评估提供了可操作性的洞见。

1 引言

在当今以数据驱动的时代,数据质量(Data Quality, 简称 DQ)的重要性已变得至关重要 [7, 24, 30, 38]。组织越来越依赖于快速增长的大规模数据,以支持其运营、战术和战略决策,这些决策要么直接基于数据,要么依赖于使用这些数据训练的机器学习/深度学习模型。因此,数据质量在现代企业与组织的整个运营流程中,对下游任务的影响举足轻重。高质量的数据对于确保分析结果的可靠性 [20]、提升机器学习(ML)模型的能力 [2, 9, 23, 25]、以及支撑商业智能(BI)活动 [17, 40] 都具有基础性作用。而低质量的数据则可能导致代价高昂的错误决策、运营低效,甚至会造成利益相关方或最终用户对系统的信任缺失 [8, 9, 26, 34, 35]。随着生成式人工智能的发展 [11, 29, 43, 44],数据质量的有效管理变得更加关键。

在过去几十年中,学术界围绕数据质量评估与改进已开展了大量研究 [6, 10],同时也涌现出了一些公共标准,如 ISO/IEC 25012 标准 [15]。文献广泛认为,数据质量由多个维度(dimension)构成,也被称为特征(characteristic)或属性(attribute)[7, 41],如准确性、完整性和时效性等。这些维度可以通过数据质量度量(DQ metric)进行量化,后者是将某个维度映射为数值的函数。尽管关于数据质量维度的讨论已相当丰富,但其在实际场景中的落地方式仍常常缺乏清晰指引。

与理论研究同步,大量数据质量工具也被开发出来 [12]。这些工具是软件产品,旨在为企业与组织提供实用手段,用以评估和提升其数据质量。然而,这些工具在实际使用中存在两个明显的问题:(i)用于描述功能的术语不一致;(ii)功能与数据质量维度之间的对应关系模糊、甚至被忽视。例如,在某些工具中,对数据表中所有行是否满足某个约束的检查可能被称为一致性(conformance)、合规性(compliance),甚至是有效性(validity),本质上指向相同的软件工程功能;而相同的术语在不同工具中却可能表示不同功能。例如,“完整性”(completeness)在某些工具中指的是计数表中行数的功能,而在另一些工具中则用于检查是否存在 NULL 值。造成这一碎片化现象的部分原因是数据质量维度本身的术语就缺乏统一性。尽管已有标准存在,但像 currentness(现势性)、freshness(新鲜性)、recency(新近性)和 timeliness(时效性)等术语在文献中常常被交替使用 [7],甚至对 accuracy(准确性)的理解也并不一致 [16]。术语异构性以及数据质量工具中功能实现方式的不一致,带来了两个主要挑战:

(C1) 实践者困惑于:在实际应用中应如何理解和使用数据质量维度,以及应从哪些工具中预期获取哪些功能。

(C2) 研究人员困惑于:特定的数据质量维度在实践中到底是如何被具体化(materialized)的。

为了解决这些挑战,本文旨在打通数据质量理论与实践之间的关联。我们关注的是数据质量评估功能(即对数据特定属性进行检查并与阈值或参考数据进行比较),不包括数据清洗等数据质量改进功能。 为反映实际应用情况,我们调查了七个广泛使用的开源数据质量工具中所实现的底层功能(low-level functionalities)¹。为体现理论视角,我们采用 ISO/IEC 25012 标准 [15] 所定义的数据质量模型,其中包含 15 个高层次数据质量维度(见附录 B)。我们的主要贡献如下:² 1. 提供一份统一的底层功能清单,涵盖当前主流开源数据质量工具所支持的功能。 1. 列出了各底层功能的具体变体。这部分内容为实践者提供了可操作性建议,帮助其了解当前可执行哪些错误检测检查,以及这些检查在主流开源工具中是如何在源码层级上实现的。 1. 提出了一个新颖的映射关系,将数据质量工具中识别出的底层功能与 ISO/IEC 25012 标准中的数据质量维度进行关联。该映射为研究者与实践者提供了统一视角,揭示了成功应用于工具中的错误检测功能与理论维度之间的潜在联系。

本文其余结构安排如下:第 2 节介绍本综述的研究方法;第 3 节呈现底层功能清单及其与数据质量维度的映射;第 3.2 至第 3.6 节分别列出各底层功能的变体实现;第 4 节从数据质量维度视角重新审视我们的发现,突出其实践中的具体体现;第 5 节讨论相关研究工作;第 6 节总结全文并展望未来工作方向。

成为VIP会员查看完整内容
1

相关内容

图基础模型:全面综述
专知会员服务
33+阅读 · 5月22日
生物医学基础模型:综述
专知会员服务
34+阅读 · 3月8日
多模态基础模型的机制可解释性综述
专知会员服务
36+阅读 · 2月28日
推荐系统中的扩散模型:综述
专知会员服务
20+阅读 · 1月22日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
【ICML2023】无消息传递的transformer图归纳偏差
专知会员服务
26+阅读 · 2023年6月1日
专知会员服务
10+阅读 · 2021年10月6日
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
时空数据挖掘:综述
专知
33+阅读 · 2022年6月30日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
A survey on deep hashing for image retrieval
Arxiv
15+阅读 · 2020年6月10日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关主题
相关VIP内容
图基础模型:全面综述
专知会员服务
33+阅读 · 5月22日
生物医学基础模型:综述
专知会员服务
34+阅读 · 3月8日
多模态基础模型的机制可解释性综述
专知会员服务
36+阅读 · 2月28日
推荐系统中的扩散模型:综述
专知会员服务
20+阅读 · 1月22日
视觉自回归模型综述
专知会员服务
25+阅读 · 2024年11月14日
【ICML2023】无消息传递的transformer图归纳偏差
专知会员服务
26+阅读 · 2023年6月1日
专知会员服务
10+阅读 · 2021年10月6日
相关资讯
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
时空数据挖掘:综述
专知
33+阅读 · 2022年6月30日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
A survey on deep hashing for image retrieval
Arxiv
15+阅读 · 2020年6月10日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员