NeurIPS 2020中国入选论文:新一代算法“鉴黄师”诞生,中科院计算所研究生一作

2020 年 11 月 24 日 量子位
贾浩楠 发自 凹非寺
量子位 报道 | 公众号 QbitAI

不知道那位不愿意透露姓名的唐马儒先生,现在看太阳还是不是绿色的?

第一代网络鉴黄师,牺牲小我,造福了千万家。

撇开玩笑不谈,维持健康良好的网络环境,只靠人工鉴黄,根本不现实。

这也是近两年AI在网络安全应用的热门方向。

今年的AI顶会NeurIPS 2020,阿里安全团队一篇名为启发式领域适应(Heuristic Domain Adaptation)的论文入选。

这项研究的重要之处,在于将迁移学习运用在网络涉黄信息的鉴别,实现了同一模型在不同场景下的低成本训练部署。

AI鉴黄师有了通用性,唐马儒们,终于解放了。

从电商到直播:一套架构应对全场景

AI鉴黄不是新鲜事,2018年,微软、谷歌、亚马逊等等巨头还搞过算法鉴黄大赛,谷歌摘得桂冠。

但是,以往的鉴黄算法,只针对特定场景。

即使同样针对图像的算法,在面对不同的应用案例,比如社交媒体或电商时,也需要重新收集数据进行训练。

忽略某一特定场景下有针对性的训练,直接套用其他现成算法,结果是十分糟糕的。

风险或违规样本收集成本较高,业务存在对抗和变异等特点,使得深度学习模型无以为继,因此研究探索基于小样本和增量学习技术的模型训练与迭代,变得非常重要。

现实的情况是,大部分算法面临着少量训练数据和广泛应用场景的矛盾。

阿里安全的解决方案,是将经典的“启发式搜索”思想,融入到领域适应问题中,来解决在数据不充分情况下的模型训练问题,实现将人工智能从现有数据学习到的知识迁移到未知场景中。

比如,在鉴黄场景下,目前该研究成果技术可直接从电商场景迁移至直播场景中应用。

与电商场景不同,直播场景不仅有主播等人物,还常常有桌椅家具等繁杂的物品背景,这些差异会导致电商场景下的搜索识别技术迁移应用效果不佳。

通过将“启发式搜索”思想融入,研究团队构建了启发式领域适用的基础架构,并通过相似性、独立性、终止点等角度进行约束,使算法模型在相同计算量下,达到最佳效果。

针对复杂任务和场景,迁移学习的鲁棒性与可扩展性主要体现为如何更好地提取领域不变特征。

目前,这项成果主要用于内容安全识别,如直播或动漫人物及白描场景下是否涉黄等。

但阿里安全资深算法专家华棠认为,迁移学习的特性,使得这套原理框架可以移植到其他诸多领域,比如在线教育、文娱行业等等。

核心:HDAN

在以往识别分类任务中常采用的经典DAN以及DANN方法中,“直接对齐”会在高维空间产生“障碍物”,从而影响最终算法收敛效果;

HDAN(启发式领域适应网络),采取的技术方案借鉴于经典的启发式搜索,强调在识别具体物体的过程中,额外对环境场景等无关因素进行建模。

在相对固定的环境与场景中,环境特征H(x)并不难以建模。估计的环境信息实际上相当于启发式信息,用来指导用于商品识别的特征G(x)。

同时估计的环境信息数量还要加以控制,避免过大,影响物品类别信息的建模。

在具体的实现过程中,相似性方面,HDAN强调环境和商品特征应该有区分,但同时也关注容易混淆的特征。

所以相似性分析最终得到的是初始时相似度的约束,而不是全部训练过程的约束。

在具体的三个领域适应场景中:无监督领域适应(UDA),半监督领域适应(SSDA)和多源域领域适应(MSDA),HDAN都取得了SOTA的结果。

据阿里安全方面介绍,目前这项算法现在已经应用到了阿里云的绿网安全产品中。

在9月底举行的2020年人工智能开发者大会(AIIA2020),绿网内容识别技术通过中国信息通信研究院性能评估测试,还获得了官方权威证书。

作者介绍

本文的一作,崔书豪,中科院计算所研三在读,指导老师是王树徽。

他的主要研究方向是深度领域适应学习与开放域学习技术。

崔书豪目前在阿里安全团队实习。

6个月前,量子位介绍过崔书豪同学一作入选CVPR 2020的成果一行代码提升迁移性能

今年崔书豪以第一作者向CVPR 2020提交了两篇论文,另一篇是Gradually Vanishing Bridge for Adversarial Domain Adaptation,也被接收。

论文地址:

https://papers.nips.cc/paper/2020/file/555d6702c950ecb729a966504af0a635-Paper.pdf

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

量子位年度智能商业峰会启幕,

李开复等AI大咖齐聚,

邀你共探新形势下智能产业发展之路

限时早鸟优惠,扫码锁定席位

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


登录查看更多
0

相关内容

【博士论文】搜索引擎中的实体推荐关键技术研究
专知会员服务
44+阅读 · 2020年12月9日
专知会员服务
77+阅读 · 2020年12月6日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
84+阅读 · 2020年6月9日
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
重磅!商汤开源目标跟踪最强算法SiamRPN系列
AI前线
13+阅读 · 2019年5月24日
雷军强推:小米造最强超分辨率算法,现已开源
机器之心
7+阅读 · 2019年2月20日
商汤及联合实验室入选论文重点解读 | ECCV 2018
【学界】实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN
GAN生成式对抗网络
14+阅读 · 2018年6月20日
现实版“读心术”,读懂你性格的个性化推荐
微软研究院AI头条
3+阅读 · 2017年9月7日
Arxiv
0+阅读 · 2021年1月27日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
FIGR: Few-shot Image Generation with Reptile
Arxiv
5+阅读 · 2019年1月8日
VIP会员
Top
微信扫码咨询专知VIP会员