RetClean: 使用基础模型和数据湖的基于检索的数据清理 (RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data Lakes) - 专知论文

会员服务 ·

0

数据湖 · ChatGPT · 大模型 · 推断 · VLDB ·

2023 年 3 月 29 日

RetClean: Retrieval-Based Data Cleaning Using Foundation Models and Data Lakes

翻译：RetClean: 使用基础模型和数据湖的基于检索的数据清理

Mohammad Shahmeer Ahmad,Zan Ahmad Naeem,Mohamed Eltabakh,Mourad Ouzzani,Nan Tang

Can foundation models (such as ChatGPT) clean your data? In this proposal, we demonstrate that indeed ChatGPT can assist in data cleaning by suggesting corrections for specific cells in a data table (scenario 1). However, ChatGPT may struggle with datasets it has never encountered before (e.g., local enterprise data) or when the user requires an explanation of the source of the suggested clean values. To address these issues, we developed a retrieval-based method that complements ChatGPT's power with a user-provided data lake. The data lake is first indexed, we then retrieve the top-k relevant tuples to the user's query tuple and finally leverage ChatGPT to infer the correct value (scenario 2). Nevertheless, sharing enterprise data with ChatGPT, an externally hosted model, might not be feasible for privacy reasons. To assist with this scenario, we developed a custom RoBERTa-based foundation model that can be locally deployed. By fine-tuning it on a small number of examples, it can effectively make value inferences based on the retrieved tuples (scenario 3). Our proposed system, RetClean, seamlessly supports all three scenarios and provides a user-friendly GUI that enables the VLDB audience to explore and experiment with the system.

翻译：能否使用基础模型（例如ChatGPT）清理您的数据？在这篇论文中，我们展示了ChatGPT确实可以通过为数据表中特定单元格提供纠正建议来协助数据清理（场景1）。然而，ChatGPT可能在遇到以前从未遇到过的数据集（例如，本地企业数据）或用户需要解释所建议的清理值来源时会遇到困难。为了解决这些问题，我们开发了一种基于检索的方法，将用户提供的数据湖与ChatGPT的能力相结合。首先对数据湖进行索引，然后检索与用户查询元组最相关的前k个元组，最后利用ChatGPT推断正确的值（场景2）。然而，出于隐私原因，将企业数据与ChatGPT这样的外部托管模型共享可能不可行。为了协助这种情况，我们开发了一种定制的基于RoBERTa的基础模型，可在本地部署。通过对少量示例进行微调，它可以有效地进行值推断，这些值是基于检索到的元组（场景3）。我们提出的系统RetClean无缝支持这三种场景，并提供了一种用户友好的GUI，使VLDB读者能够探索和使用该系统。

0

相关内容

数据湖

数据湖是一个集中存储区，用于存储、处理和保护大量结构化、半结构化和非结构化数据。它可以以原生格式存储数据，并处理任何转换格式，而无需考虑大小限制。

【2023新书】使用Python进行统计和数据可视化，554页pdf

【2023新书】使用Python进行统计和数据可视化，554页pdf

专知会员服务

130+阅读 · 2023年1月29日

【干货书】使用Python的文本分析蓝图，Blueprints for Text Analytics Using Python

【干货书】使用Python的文本分析蓝图，Blueprints for Text Analytics Using Python

专知会员服务

31+阅读 · 2022年5月29日

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

专知会员服务

19+阅读 · 2022年3月13日

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

机器学习相关资源(框架、库、软件)大列表

机器学习相关资源(框架、库、软件)大列表

专知会员服务

40+阅读 · 2019年10月9日

【电子书推荐】Data Science with Python and Dask

【电子书推荐】Data Science with Python and Dask

专知会员服务

44+阅读 · 2019年6月1日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

已删除

德先生

53+阅读 · 2019年4月28日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【推荐】用Python/OpenCV实现增强现实

【推荐】用Python/OpenCV实现增强现实

机器学习研究会

15+阅读 · 2017年11月16日

【推荐】免费书(草稿)：数据科学的数学基础

【推荐】免费书(草稿)：数据科学的数学基础

机器学习研究会

20+阅读 · 2017年10月1日

自然语言处理 (NLP)资源大全

自然语言处理 (NLP)资源大全

机械鸡

35+阅读 · 2017年9月17日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

大数据环境下基于领域知识获取与对齐的观点检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

XBRL信息环境下会计账簿数据与财务报告数据的整合与实现研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于群智的开放式数据集成与分析技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于Linked Open Data的Web服务语义互操作关键技术

国家自然科学基金

0+阅读 · 2012年12月31日

面向数据中心混合负载的数据存储结构及其转换技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于用户反馈的Web数据集成中的数据质量管理

国家自然科学基金

2+阅读 · 2011年12月31日

汉语文本推理的资源建设和统计分析研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于汉语文本数据的统计分析

国家自然科学基金

0+阅读 · 2011年12月31日

并行数据和调查数据质量管理

国家自然科学基金

0+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

Arxiv

0+阅读 · 2023年5月19日

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

Arxiv

0+阅读 · 2023年5月19日

Segment Any Anomaly without Training via Hybrid Prompt Regularization

Arxiv

0+阅读 · 2023年5月18日

A Framework for Designing Foundation Model based Systems

Arxiv

1+阅读 · 2023年5月18日

Meta-optimized Contrastive Learning for Sequential Recommendation

Arxiv

0+阅读 · 2023年5月17日

FaaSKeeper: Learning from Building Serverless Services with ZooKeeper as an Example

Arxiv

0+阅读 · 2023年5月16日

Foundation Models for Decision Making: Problems, Methods, and Opportunities

Arxiv

36+阅读 · 2023年3月7日

A Comprehensive Survey on Multimodal Recommender Systems: Taxonomy, Evaluation, and Future Directions

Arxiv

16+阅读 · 2023年2月9日

On the Opportunities and Risks of Foundation Models

Arxiv

30+阅读 · 2021年8月18日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

VIP会员

文章信息

相关主题

相关VIP内容

【2023新书】使用Python进行统计和数据可视化，554页pdf

【2023新书】使用Python进行统计和数据可视化，554页pdf

专知会员服务

130+阅读 · 2023年1月29日

【干货书】使用Python的文本分析蓝图，Blueprints for Text Analytics Using Python

【干货书】使用Python的文本分析蓝图，Blueprints for Text Analytics Using Python

专知会员服务

31+阅读 · 2022年5月29日

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

如何使用TensorFlow 排序构建推荐系统? How to build a recommendation system using TensorFlow Ranking?

专知会员服务

19+阅读 · 2022年3月13日

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

机器学习相关资源(框架、库、软件)大列表

机器学习相关资源(框架、库、软件)大列表

专知会员服务

40+阅读 · 2019年10月9日

【电子书推荐】Data Science with Python and Dask

【电子书推荐】Data Science with Python and Dask

专知会员服务

44+阅读 · 2019年6月1日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

已删除

德先生

53+阅读 · 2019年4月28日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

【论文推荐】最新十二篇情感分析相关论文—自然语言推理框架、网络事件、多任务学习、实时情感变化检测、多因素分析、深度语境词表示

专知

22+阅读 · 2018年5月7日

【推荐】用Python/OpenCV实现增强现实

【推荐】用Python/OpenCV实现增强现实

机器学习研究会

15+阅读 · 2017年11月16日

【推荐】免费书(草稿)：数据科学的数学基础

【推荐】免费书(草稿)：数据科学的数学基础

机器学习研究会

20+阅读 · 2017年10月1日

自然语言处理 (NLP)资源大全

自然语言处理 (NLP)资源大全

机械鸡

35+阅读 · 2017年9月17日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

相关论文

Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

Arxiv

0+阅读 · 2023年5月19日

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

Arxiv

0+阅读 · 2023年5月19日

Segment Any Anomaly without Training via Hybrid Prompt Regularization

Arxiv

0+阅读 · 2023年5月18日

A Framework for Designing Foundation Model based Systems

Arxiv

1+阅读 · 2023年5月18日

Meta-optimized Contrastive Learning for Sequential Recommendation

Arxiv

0+阅读 · 2023年5月17日

FaaSKeeper: Learning from Building Serverless Services with ZooKeeper as an Example

Arxiv

0+阅读 · 2023年5月16日

Foundation Models for Decision Making: Problems, Methods, and Opportunities

Arxiv

36+阅读 · 2023年3月7日

A Comprehensive Survey on Multimodal Recommender Systems: Taxonomy, Evaluation, and Future Directions

Arxiv

16+阅读 · 2023年2月9日

On the Opportunities and Risks of Foundation Models

Arxiv

30+阅读 · 2021年8月18日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

相关基金

大数据环境下基于领域知识获取与对齐的观点检索研究

国家自然科学基金

0+阅读 · 2012年12月31日

XBRL信息环境下会计账簿数据与财务报告数据的整合与实现研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于群智的开放式数据集成与分析技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于Linked Open Data的Web服务语义互操作关键技术

国家自然科学基金

0+阅读 · 2012年12月31日

面向数据中心混合负载的数据存储结构及其转换技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于用户反馈的Web数据集成中的数据质量管理

国家自然科学基金

2+阅读 · 2011年12月31日

汉语文本推理的资源建设和统计分析研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于汉语文本数据的统计分析

国家自然科学基金

0+阅读 · 2011年12月31日

并行数据和调查数据质量管理

国家自然科学基金

0+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员