百万级别二次元角色识别数据集

2019 年 7 月 18 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


知乎专栏:挖掘知乎里有趣的东西

来源:https://zhuanlan.zhihu.com/p/71823334

已获作者授权,请勿二次转载。


之前我们做了一个效果不错的动漫头像检测模型。这个模型本身并不复杂,但它可以帮助批量化处理数据,从而为更多彩的应用奠定基础。一个自然的问题就是,我们有没有可能做一个类似Amazon XRay的东西,你给我一张ACG图片,我告诉你这是哪部番里面的哪个角色?

这样的模型本身并不复杂,现成的face detection - alignment - recognition的框架可以轻松搞定。但关键是训练数据很难找。这篇文章主要就是解决了这个问题,开源了一个百万级别的二次元角色识别数据集,方便各位丹友们炼丹。

在我们之前对StyleGAN的调教中用到了Danbooru 2018数据集。这个数据集是一个同人画师数据集,很多画师在上传的时候都会选择这是什么角色。这天生就非常适合做角色识别。我们从2018年的630万张图出发,做了以下过滤和处理:

  • 首先我们根据每张图片的tag,根据tag的属性过滤其中的人物角色tag。如果一个图片没有任何角色tag,我们就直接丢弃这张图片。

  • 因为当一个图片有多个角色tag的时候我们不知道哪个脸对哪个tag,所以我们目前丢弃了所有有2个或以上角色tag的图片。

  • 接下来我们对剩下的图片用这个模型进行头像检测。对于检出多于一个头像的图片直接丢弃。

  • 注意这里我们没有进行人脸校准,主要是因为没找到适合的模型。也许未来会标注训练一个。

最终得到一个97万张图,7万个角色的数据集。平均每个角色有13.85张图像。但和大多数数据集一样,每个角色有多少张图像是个非常长尾的分布。在7万个角色中,有2万个角色只有一张图片。如果我们把图像最多的100个角色画一个直方图的话,长这样:

最流行的100个角色的图片数量直方图

其中图片最多的是初音未来,有接近25000张图。公主殿下到底是多受欢迎。然后最受欢迎的前20个角色是:

  • hatsune_miku 初音未来

  • hakurei_reimu 博丽灵梦

  • flandre_scarlet 芙兰朵露·斯卡蕾特

  • kirisame_marisa 雾雨魔理沙

  • cirno 琪露诺

  • izayoi_sakuya 十六夜咲夜

  • remilia_scarlet 蕾米莉亚·斯卡蕾特

  • kochiya_sanae 东风谷早苗

  • rumia 露米娅

  • shameimaru_aya 射命丸文

  • patchouli_knowledge 帕秋莉·诺蕾姬

  • inubashiri_momiji 犬走椛

  • fujiwara_no_mokou 藤原妹红

  • komeiji_koishi 古明地恋

  • reisen_udongein_inaba 铃仙·优昙华院·因幡

  • yakumo_yukari 八云紫

  • alice_margatroid 爱丽丝·玛格特罗伊德

  • komeiji_satori 古明地觉

  • hinanawi_tenshi 比那名居天子

  • kazami_yuuka 风见幽香

我特码。真是给你们东方厨跪了。前几个角色的可视化结果如下:

数据集可视化

感觉标注的质量还是比较高的。

有了这个数据集,我们就可以做之前提到的角色识别了。在删去了置信度低于0.85的头像以后,我们用剩下的56万张图+ArcFace loss训练了一个ResNet18的baseline。这个模型在测试集上可以达到37.3%的精度。相应的训练集,验证集和测试集也都在数据库中提供了。模型和视频demo随后放出。感兴趣的同学可以训练自己的模型,和baseline进行比较。

最后就是传送门啦,请猛击我吧!

https://github.com/grapeot/Danbooru2018AnimeCharacterRecognitionDataset


-完-




*延伸阅读



点击左下角阅读原文”,即可申请加入极市目标跟踪、目标检测、工业检测、人脸方向、视觉竞赛等技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~



觉得有用麻烦给个在看啦~  

登录查看更多
26

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
最新《深度学习行人重识别》综述论文,24页pdf
专知会员服务
80+阅读 · 2020年5月5日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
在深度学习中处理不均衡数据集
极市平台
19+阅读 · 2018年11月27日
人脸检测与识别总结
计算机视觉战队
21+阅读 · 2017年11月29日
PornHub 用计算机视觉识别 A 片中的演员和内容
TechCrunch中国
4+阅读 · 2017年10月13日
用户画像之用户性别识别
Python技术博文
7+阅读 · 2017年7月7日
Arxiv
5+阅读 · 2019年11月22日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关资讯
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
在深度学习中处理不均衡数据集
极市平台
19+阅读 · 2018年11月27日
人脸检测与识别总结
计算机视觉战队
21+阅读 · 2017年11月29日
PornHub 用计算机视觉识别 A 片中的演员和内容
TechCrunch中国
4+阅读 · 2017年10月13日
用户画像之用户性别识别
Python技术博文
7+阅读 · 2017年7月7日
Top
微信扫码咨询专知VIP会员