创建CV数据集总共分几步?这款移动端APP帮你分分钟完成

2020 年 7 月 21 日 机器之心

机器之心报道

参与:陈萍、魔王
创建数据集涉及许多费时费力的工作,那么有没有办法能够轻松实现数据集创建呢?这款不久前上架 Google Play 的 APP,可以让你在移动端轻松创建计算机视觉数据集。
数据集是进行模型训练的前提,它的质量直接影响到后续模型的准确率。

目前我们可以在网络上搜索到大量制作好的数据集,那么如何快速制作属于自己的数据集呢?

最近有一款简易小工具 Manthano 在 Google Play 上架了。这款 APP 支持在移动端直接操作, 几分钟内即可创建自己的计算机视觉数据集,并支持在任何需要的地方做数据标注

Manthano APP 界面及功能展示。

如果你刚刚涉足计算机视觉领域,或者要做目标检测方面的研究,那么这款 APP 非常适合你创建属于自己的 CV 数据集。

数据集的制作离不开三步:

  1. 收集图像

  2. 标注图像

  3. 下载标注


这三步看起来简单,实则工作量巨大。单就图像注释这一块就要耗费大量的人力、物力,因为训练模型需要的数据量可以从几百张到几十万张图片不等。

因此,简单便捷的图像标注工具显得尤为重要。这款标注工具 Manthano 支持从手机或 Web 界面(app.manthano.ai)上传图像,进而创建数据集。


Manthano 下载链接:https://play.google.com/store/apps/details?id=www.app.manthano.ai

只需三步,创建属于自己的 CV 数据集

那么,使用 Manthano 创建数据集的具体步骤是什么呢?

Manthano 在博客中介绍了创建以下三个类别数据集的步骤:

  • 树莓派 3

  • 摄像头

  • Arduino Uno 开发板


收集图像

首先是收集图像。为这三个类别的对象拍摄照片,并使照片中的背景、角度和位置略有不同。为每个类别大约拍摄 30 张照片,并上传至 Manthano app。

在 Manthano App 中上传图像。

标注图像

接下来,就需要对图像进行标注了。

尽量在对象周围绘制边界框。不要假设对象背后可能有什么,仅注释看到的内容。使用 Finger Offset 功能,以最大程度地避免手指影响边界框的绘制。

图像标注过程。

下载标注

最后转到控制面板(app.manthano.ai),然后将图像和标注下载到桌面。


至此,只需简单的三步,整个数据集即可制作完成。

现在,你可以在机器学习模型中使用自己创建的数据集了。

用户反馈

这款 app 由 ManthanoAI 团队开发,该团队旨在为机器学习视场提供移动端标注工具和标注解决方案。

Manthano 发布后在 reddit 上引发热议,相关帖子热度高达 700+。

不过对于这款实用 APP,网友也提出了自己的建议,主要涉及以下几个方面:

何时支持其他操作系统?

目前 Manthano 只能在 Android 平台进行使用,网友希望后续能够上线 iOS 版本。


增加功能

也有人提出其他优化建议,例如增加「删除标签」功能。


提高稳定性

还有用户表示在自己的手机上使用 Manthano APP 时,会出现崩溃现象,无法执行图像标注。

对此,开发者表示将尽量维护软件稳定性,并快速迭代新版本。


从使用者的反馈来看,这款标注工具还是很实用的。读者不妨实际操作一下,切身体会在 Android 手机上分分钟创建数据集的快乐。

参考链接:
https://medium.com/swlh/create-your-custom-bounding-box-dataset-by-using-mobile-annotation-58232cfaa7ca
https://www.reddit.com/r/MachineLearning/comments/hu006c/we_have_created_a_mobile_annotation_tool_for/

7 月 23 日 20:00-21:00,小视科技副总裁、AI 研究院院长胡建国将带来线上分享,为大家详解这一工业级静默活体检测算法,期待与广大业内开发者和爱好者共同交流。识别海报二维码,添加机器之心小助手,进群一起看直播。


登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
194+阅读 · 2020年6月29日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【资源】100+本免费数据科学书
专知会员服务
107+阅读 · 2020年3月17日
7 款实用到哭的App,只说一遍
高效率工具搜罗
84+阅读 · 2019年4月30日
GitHub 热门:各大网站的 Python 爬虫登录汇总
机器学习算法与Python学习
9+阅读 · 2019年3月20日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
教程 | 如何构建自定义人脸识别数据集
机器之心
5+阅读 · 2018年6月25日
资源 | 深度学习图像标注工具汇总
人工智能头条
9+阅读 · 2018年6月12日
实用:用深度学习方法修复医学图像数据集
新智元
5+阅读 · 2018年5月4日
Arxiv
4+阅读 · 2018年1月19日
VIP会员
相关资讯
7 款实用到哭的App,只说一遍
高效率工具搜罗
84+阅读 · 2019年4月30日
GitHub 热门:各大网站的 Python 爬虫登录汇总
机器学习算法与Python学习
9+阅读 · 2019年3月20日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
教程 | 如何构建自定义人脸识别数据集
机器之心
5+阅读 · 2018年6月25日
资源 | 深度学习图像标注工具汇总
人工智能头条
9+阅读 · 2018年6月12日
实用:用深度学习方法修复医学图像数据集
新智元
5+阅读 · 2018年5月4日
Top
微信扫码咨询专知VIP会员