纠错数据标注，只需一行代码：开源项目Cleanlab发布了2.0版本

会员服务 ·

纠错数据标注，只需一行代码：开源项目Cleanlab发布了2.0版本

2022 年 5 月 4 日 机器之心

机器之心报道

编辑：蛋酱

只需要几行代码，Cleanlab 就能帮你纠正数据集中的错误。

从事 AI 研究工作的人都知道，数据准备几乎占据了数据科学和机器学习研究工作的 80%。它被认为是最耗时和最不愉快的数据科学任务。

你以为的研究工作是「花时间从数据、训练模型、高级建模技术中探索出很棒的见解」，实际上经常是「把大量时间花在清理数据上」，因为现实世界的数据是杂乱无章的，而且充满错误……

数据错误（例如训练集中的错误标记示例）会降低模型性能，数据集级别的问题（如重叠类）也会降低模型性能。即使在 gold-standard 基准数据集中，测试集错误也很常见，这可能会误导数据科学家选择劣质模型进行部署。虽然探索复杂的建模技术听起来比手动检查和清理单个数据点更有吸引力，但往往是后者提供了更大的收益。

为了帮助数据集纠错效率的提升，来自 MIT、亚马逊的研究者创造了数据标注纠错工具 Cleanlab。Cleanlab 通过仅自动标记真正需要注意的一小部分数据来减少此过程中的痛苦。

这个工具在三人合著的 NeurIPS 2021 论文《Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks》（ImageNet 验证集 6% 的标签都是错的，MIT：十大常用数据集没那么靠谱）也有提到。

论文链接：https://arxiv.org/abs/2103.14749

在这篇文章中，三人对 10 个主流机器学习数据集的测试集展开了研究，发现它们的平均错误率竟高达 3.4%。其中，最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误，错误率为 6%；QuickDraw 数据集中至少存在 500 万个错误，错误率为 10%。

既然数据标注错误如此普遍，但又十分重要，那 cleanlab 是怎么解决这个问题的呢？

实现 80% 的自动化

Cleanlab 通过提供一个框架来简化以数据为中心的 AI ，帮助数据科学家和 ML 工程师完成 80% 的工作。Cleanlab 通过查找和修复示例级、类级和数据集级问题，支持机器学习和分析工作流，处理混乱的现实世界数据；测量和跟踪整体数据集质量；并为机器学习管道提供清洁数据。

「Cleanlab 背后的算法理论受到了量子信息理论的启发，当时我们的 CEO 正在麻省理工学院进行博士研究。我们的一些用户认为 Cleanlab 是黑魔法，但它大部分是发表在顶级 ML/AI 会议和期刊上的数学和科学研究。」

2021 年底，Cleanlab 公司成立。在过去的一年里，数十家科技、医疗保健、金融和数据相关的公司（例如特斯拉、摩根大通、Chase、富国银行、微软等）已经开始使用 cleanlab。迄今，这个项目已经累积了 3k Star：

近日，Cleanlab 正式发布了 2.0 版本，以适用于所有数据科学家、ML 数据集和模型。

cleanlab 2.0

cleanlab 2.0 是一个开源框架，用于机器学习和分析杂乱的真实数据。基于 MIT 的研究，cleanlab 可以识别数据集中的错误，测量数据集质量，用噪声数据训练可靠模型，并帮助管理高质量的数据集，每一个都只需要几行代码。

项目地址：https://github.com/cleanlab/cleanlab

Cleanlab 2.0 版本中开源的新特性示例（大部分是一行代码）包括：

在数据集中查找问题并按质量对数据点进行排名
在有标签问题的任何数据集上训练任何分类器
在数据集级别查找要合并和 / 或删除的重叠类
衡量数据集的整体标签健康状况

基本只需要一行代码，即可找出数据集中的哪些示例存在问题：

from cleanlab.classification import CleanLearningissues = CleanLearning(yourFavoriteModel).find_label_issues(data, labels)

一行代码，就能衡量和跟踪数据集的整体健康状况：

from cleanlab.dataset import overall_label_health_scorehealth = overall_label_health_score(labels, pred_probs)

此外，cleanlab 的所有功能都适用于任何数据集和任何模型，包括 scikit-learn、PyTorch、Tensorflow、Keras、JAX、HuggingFace、MXNet、XGBoost 等。如果你使用与 sklearn 兼容的分类器，cleanlab 可以开箱即用。

更多细节可参考项目文档。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

数据标注

关注 2

【CVPR2022】开放集半监督图像生成

专知会员服务

23+阅读 · 2022年5月3日

【2021新书】ApachePulsar 实战，402页pdf

专知会员服务

72+阅读 · 2021年12月29日

【2021新书】机器学习模型生产部署实践，161页pdf，

专知会员服务

113+阅读 · 2021年6月11日

【干货书】数据结构: 算法与信息检索Java，187页pdf

专知会员服务

28+阅读 · 2021年3月7日

Python机器学习经典实例，366页pdf

专知会员服务

105+阅读 · 2021年1月2日

【2020新书】如何认真写好的代码和软件，318页pdf

专知会员服务

65+阅读 · 2020年3月26日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

【2020新书】Python大数据处理，Mastering Large Datasets with Python

专知会员服务

54+阅读 · 2020年2月2日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

零门槛开发AI模型！国际AI科学家联合开源算法训练平台YMIR

AI前线

0+阅读 · 2022年6月10日

有人一周内清理了PASCAL数据集中的17120张图像，将mAP提高了13%

机器之心

0+阅读 · 2022年4月27日

一行代码，AI模型推理速度提升10倍！Reddit技术分享被群嘲为「无耻的自我宣传」

新智元

0+阅读 · 2022年3月7日

因无报酬，开发者破坏 GitHub 知名开源库；AngularJS 结束生命周期；Linux 5.16 发布｜开源日报

CSDN

0+阅读 · 2022年1月10日

全面梳理：面向AI开发者，智谱AI发布一批高质量数据集

学术头条

0+阅读 · 2021年12月27日

有了这个工具，不执行代码就可以找PyTorch模型错误

PaperWeekly

0+阅读 · 2021年12月23日

有bug！用Pytorch Lightning重构代码速度更慢，修复后速度倍增

机器之心

0+阅读 · 2021年11月25日

只要5秒就能“克隆”本人语音！美玉学姐不再查寝，而是吃起了桃桃丨开源

量子位

0+阅读 · 2021年10月7日

PyTorch、TensorFlow最新版本对比，2021年了你选谁？

机器之心

0+阅读 · 2021年5月24日

1400小时开源语音数据集，你想要都在这儿

AI100

18+阅读 · 2019年3月1日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于反模式自动检测的代码质量分析与重构

国家自然科学基金

0+阅读 · 2014年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于Groebner基方法的布尔多项式方程组求解算法的研究与实现

国家自然科学基金

0+阅读 · 2013年12月31日

无机-有机杂化钙钛矿半导体在纳米结构太阳能电池上的应用

国家自然科学基金

0+阅读 · 2013年12月31日

无线传感器网络的数据丢失与重构研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于长周期-短周期复合储热的太阳能建筑热利用基础研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向动画视频分析的相似视频片段探测技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向可持续制造的车间能耗建模及优化技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

Teacher Model Fingerprinting Attacks Against Transfer Learning

Arxiv

0+阅读 · 2022年6月23日

Human-in-the-Loop Large-Scale Predictive Maintenance of Workstations

Arxiv

1+阅读 · 2022年6月23日

REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy Transfer

Arxiv

0+阅读 · 2022年6月21日

Model-Based Opponent Modeling

Arxiv

0+阅读 · 2022年6月21日

Semi-Supervised Cross-Silo Advertising with Partial Knowledge Transfer

Arxiv

0+阅读 · 2022年6月21日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Data-Free Knowledge Transfer: A Survey

Arxiv

21+阅读 · 2021年12月31日

Self-training with Noisy Student improves ImageNet classification

Arxiv

15+阅读 · 2019年11月11日

Multi-pseudo Regularized Label for Generated Samples in Person Re-Identification

Arxiv

12+阅读 · 2018年1月29日

VIP会员