Data wrangling - the process of cleaning, transforming, and preparing data for analysis - is a well-known bottleneck in data science workflows. Existing tools either rely on manual scripting, which is error-prone and hard to debug, or automate cleaning through opaque black-box pipelines that offer limited control. We present Buckaroo, a scalable visual data wrangling system that restructures data preparation as a direct manipulation task over visualizations. Buckaroo enables users to explore and repair data anomalies - such as missing values, outliers, and type mismatches - by interacting directly with coordinated data visualizations. The system extensibly supports user-defined error detectors and wranglers, tracks provenance for undo/redo, and generates reproducible scripts for downstream tasks. Buckaroo maintains efficient indexing data structures and differential storage to localize anomaly detection and minimize recomputation. To demonstrate the applicability of our model, Buckaroo is integrated with the \textit{Hopara} pan-and-zoom engine, which enables multi-layered navigation over large datasets without sacrificing interactivity. Through empirical evaluation and an expert review, we show that Buckaroo makes visual data wrangling scalable - bridging the gap between visual inspection and programmable repairs.


翻译:数据整理——即清洗、转换和准备数据以供分析的过程——是数据科学工作流中众所周知的瓶颈。现有工具要么依赖易出错且难以调试的手动脚本编写,要么通过不透明的黑盒管道自动化清洗过程,但提供的控制能力有限。我们提出了Buckaroo,一个可扩展的可视化数据整理系统,它将数据准备重构为基于可视化的直接操作任务。Buckaroo使用户能够通过直接与协调的数据可视化交互来探索和修复数据异常——例如缺失值、异常值和类型不匹配。该系统可扩展地支持用户定义的错误检测器和整理器,跟踪操作溯源以实现撤销/重做,并为下游任务生成可复现的脚本。Buckaroo维护高效的索引数据结构和差异存储,以定位异常检测并最小化重新计算。为了展示我们模型的适用性,Buckaroo与\textit{Hopara}平移缩放引擎集成,该引擎能够在大型数据集上实现多层导航而不牺牲交互性。通过实证评估和专家评审,我们证明Buckaroo使可视化数据整理具有可扩展性——弥合了视觉检查与可编程修复之间的鸿沟。

0
下载
关闭预览

相关内容

Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
相关基金
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员