百万级别二次元角色识别数据集

2019 年 7 月 18 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

知乎专栏：挖掘知乎里有趣的东西

来源：https://zhuanlan.zhihu.com/p/71823334

已获作者授权，请勿二次转载。

之前我们做了一个效果不错的动漫头像检测模型。这个模型本身并不复杂，但它可以帮助批量化处理数据，从而为更多彩的应用奠定基础。一个自然的问题就是，我们有没有可能做一个类似Amazon XRay的东西，你给我一张ACG图片，我告诉你这是哪部番里面的哪个角色？

这样的模型本身并不复杂，现成的face detection - alignment - recognition的框架可以轻松搞定。但关键是训练数据很难找。这篇文章主要就是解决了这个问题，开源了一个百万级别的二次元角色识别数据集，方便各位丹友们炼丹。

在我们之前对StyleGAN的调教中用到了Danbooru 2018数据集。这个数据集是一个同人画师数据集，很多画师在上传的时候都会选择这是什么角色。这天生就非常适合做角色识别。我们从2018年的630万张图出发，做了以下过滤和处理：

首先我们根据每张图片的tag，根据tag的属性过滤其中的人物角色tag。如果一个图片没有任何角色tag，我们就直接丢弃这张图片。
因为当一个图片有多个角色tag的时候我们不知道哪个脸对哪个tag，所以我们目前丢弃了所有有2个或以上角色tag的图片。
接下来我们对剩下的图片用这个模型进行头像检测。对于检出多于一个头像的图片直接丢弃。
注意这里我们没有进行人脸校准，主要是因为没找到适合的模型。也许未来会标注训练一个。

最终得到一个97万张图，7万个角色的数据集。平均每个角色有13.85张图像。但和大多数数据集一样，每个角色有多少张图像是个非常长尾的分布。在7万个角色中，有2万个角色只有一张图片。如果我们把图像最多的100个角色画一个直方图的话，长这样：

其中图片最多的是初音未来，有接近25000张图。。公主殿下到底是多受欢迎。。然后最受欢迎的前20个角色是：

hatsune_miku 初音未来
hakurei_reimu 博丽灵梦
flandre_scarlet 芙兰朵露·斯卡蕾特
kirisame_marisa 雾雨魔理沙
cirno 琪露诺
izayoi_sakuya 十六夜咲夜
remilia_scarlet 蕾米莉亚·斯卡蕾特
kochiya_sanae 东风谷早苗
rumia 露米娅
shameimaru_aya 射命丸文
patchouli_knowledge 帕秋莉·诺蕾姬
inubashiri_momiji 犬走椛
fujiwara_no_mokou 藤原妹红
komeiji_koishi 古明地恋
reisen_udongein_inaba 铃仙·优昙华院·因幡
yakumo_yukari 八云紫
alice_margatroid 爱丽丝·玛格特罗伊德
komeiji_satori 古明地觉
hinanawi_tenshi 比那名居天子
kazami_yuuka 风见幽香

我特码。。真是给你们东方厨跪了。。前几个角色的可视化结果如下：

感觉标注的质量还是比较高的。

有了这个数据集，我们就可以做之前提到的角色识别了。在删去了置信度低于0.85的头像以后，我们用剩下的56万张图+ArcFace loss训练了一个ResNet18的baseline。这个模型在测试集上可以达到37.3%的精度。相应的训练集，验证集和测试集也都在数据库中提供了。模型和视频demo随后放出。感兴趣的同学可以训练自己的模型，和baseline进行比较。

最后就是传送门啦，请猛击我吧！

https://github.com/grapeot/Danbooru2018AnimeCharacterRecognitionDataset

-完-

*延伸阅读

点击左下角“阅读原文”，即可申请加入极市目标跟踪、目标检测、工业检测、人脸方向、视觉竞赛等技术交流群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【WWW2020-微软】理解用户行为用于文档推荐

专知会员服务

36+阅读 · 2020年4月5日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【干货书】流畅Python，766页pdf，中英文版

专知会员服务

227+阅读 · 2020年3月22日