AI算法起家的今日头条为何败给了色情？一文告诉你机器学习何以搞不定鉴黄 - 专知

会员服务 ·

0

AI算法起家的今日头条为何败给了色情？一文告诉你机器学习何以搞不定鉴黄

2018 年 1 月 2 日 AI100 技术中立

12月29日，国家互联网信息办公室在官网发布消息称，针对今日头条、凤凰新闻手机客户端持续传播色情低俗信息、违规提供互联网新闻信息服务等问题，要求北京市互联网信息办公室分别约谈两家企业负责人，责令企业立即停止违法违规行为。

对此，今日头条乖乖表示，依据有关部门的整改要求，今日头条手机客户端“推荐”、“热点”、“社会”、“图片”、“问答”、“财经”6个频道自2017年12月29日18时至次日18时暂停更新24小时，进入维护状态。

如此，今日头条遭遇史上最严“整改”，网信办动真格了。

其实，今日头条不是第一次被抓小辫子了。

2017年1月，北京市网信办对今日头条“头条问答”栏目中的低俗问答，提出严肃批评，并责令其整改。

2017年今年4月，今日头条旗下火山直播，由于大量女主播穿着暴露，表演低俗不堪，被北京市网信办、市公安局等联合约谈，责令限期整改。

对此，人民日报曾以三评算法推荐系列文章，斥责今日头条“明明拥有精密算法和先进的数据抓取技术，却屡屡游走在法律的灰色地带不能自拔。”

真是成也人工智能，败也人工智能。

那么问题来了，作为纯靠人工智能起家，以迅雷不及掩耳盗铃之势，从百度、四大门户、各类新闻客户端中横杀出来，在移动互联网红利殆尽之时，抢得大量用户日均时长，与BAT分食天下的大黑马，到底能不能靠人工智能再度打硬这场色情硬仗呢？

这就是营长今日关注的问题，AI到底能不能准确识别色情，能不能真正做到鉴黄？

说到这个问题，营长先带你们从历史的角度来看看，从人工到智能，互联网鉴黄的三个发展阶段。

互联网鉴黄的三个阶段

在近日结束的第四届乌镇互联网大会上（2017年12月3日-5日），据网易云安全（易盾）CTO朱浩齐介绍称，互联网鉴黄主要分为三个阶段。

第一阶段：人肉阶段

十年前，互联网刚刚起步，网络信息还不多，网络环境也不够稳定，互联网鉴黄主要走“人肉攻略”，人工肉眼盯着，发现不良图片及时删除。

第二阶段：算法过滤阶段

随着互联网的快速发展，网络数据量开始暴增，人肉已难以为继。以肤色识别算法过滤“黄色”图片成为“鉴黄”主流，机器鉴黄与人工审核分别占比为80%：20%。

第三阶段：深度学习阶段

到了移动互联网阶段，网络数据再次暴增，人工审核连20%的数据量也无法承受了，加上视频、直播等业务和数据的爆发式增长，纯靠肤色识别算法作为“过滤”的方式，已经不够用了。

这时，机器学习开始作为一种新的方式，担当其网络鉴黄的重任。

“网易云安全每天为中国互联网过滤的有害信息达1亿条左右。”朱浩齐介绍到。

那么，机器学习鉴黄的原理是什么呢？

机器学习鉴黄图的原理

朱浩齐介绍称，“辨别一张图是不是黄图，从机器学习的角度看，本质上是一个分类问题：给定一张图片，让机器判断是不是黄图，因此，技术层面要做的就是研发一个‘分类器’，让它根据输入的图片计算出该图片属于“黄图”类别的概率，然后再根据这个概率值输出一个“是”或者“否”的结果。”

具体来说，因为电脑擅长的是数学运算，所以黄图“分类器”需要先抽象成某种数学模型，这样才有可能用电脑来运算。

“为了方便理解，我们把数学模型定义为：y=f（x）。即给定图片x，我们要找到一个函数f，通过计算f（x）可以得到这个图片的黄图概率y”，朱浩齐说，这看上去非常简单，但既然要教机器分类，还需要有明确的分类标准，就是给“黄图”下个准确的定义。

“比如，黄图并不是简单的露点就是黄图了，还包括不露点的色情、以及低俗图片，另外还要排除雕塑、艺术作品等”，朱浩齐说到。

有了定义之后，下一步就是根据定义来收集样本数据。

再之后的一步，为特征提取，即通过图片训练，得到数学模型y=f(x)中的f。

由于深度学习的神经网络模型在各种图像识别的比赛中获得了突破性的进展，目前一般鉴黄会采用CNN（卷积神经网络）、GoogLeNet、ResNet（残差网络）三种深度网络模型结构。通过模型，高效地将图片数据转变成了可以运算的数学模型，以便更快更好地得到f。

此后，经过不断地迭代、算法调参，就可以得到越来越精准的f（模型）。

总的来说，鉴黄的一般步骤为建模-下定义-收集样本-特征提取-调参、迭代-获得越来越精准的模型。

那么，直播、视频又应如何鉴黄呢？

如何用机器学习对视频进行鉴黄？

云从科技高级算法工程师周翔此前在接受媒体采访时提到，实时视频影像大致可以从三个方面来鉴定：

1.是否有人物（有：色情概率增加）

2.人形轮廓的肤色比例（大：色情概率增加）

3.姿态分析（性行为姿势：色情概率增加）

鉴别视频，其实在本质上与鉴别图片类似：

视频/直播是动态的，图片是静态的。在鉴别视频和直播时，动态的内容可以解码成图片帧来进行判断，这就与静态图片鉴别方法相似了。

不过，图普科技运营总监姜泽荣告诉AI科技大本营，直播和在线视频，其在技术处理上，又略有不同。

在他看来，直播实时性强，对响应时间要求高，并且里面的场景和人物变化比较大，审核要求比较严格，所以识别难度会相对比较大，需要实时不断对房间进行截帧传输识别，并且结合人工来实现预警处理；

而视频在画质整体上比图片和直播差，一定程度会影响识别效果，通常是以视频为单位进行等时间间隔截图，以一个视频多张截图的结果来综合判断视频是否色情违规。

举个例子，如果企业对视频或直播的每一帧的图片都进行识别，数据量将变得非常巨大，运营成本会很高。面对这类情况，一般会采用对视频抽帧的方式进行处理。

例如，一分钟视频，可以按照时间段来抽取 6-15 帧左右的图片进行识别处理，以此企业减少成本。

说到鉴黄技术的难点，姜泽荣认为，相比算法，数据更难。因为算法本身的迭代优化速度是没有数据本身迭代快的，所以目前各大平台的优化都依然是基于数据本身，而难点依然是数据多样化，而不是数据的纯数量。

“谁拥有更多数据类型，谁有针对不同客户优化的不同实操经验，这个才是最有技术含量的地方。总的来说，算法并不难。”姜泽荣说到。

如今，只有当黄色图片和视频帧达到十万的量级，深度学习才能跑起来。因此，收集数据，训练，纠正，是一个超大的工作量。

相比传统的小数据采用特征分析加分类器算法，使用大数据采用深度学习训练所得的效果和精度远远超过前者。

但即便如此，想要真正实现AI鉴黄，并没有那么容易。

离真正的AI鉴黄还有几条街？

此前，今日头条人工智能实验室李磊在接受采访时坦言，人工智能识别内容最大的难点在于攻克语义的复杂性，其涉及到对逻辑推理和因果关系的上下文分析。

也就是说，人工智能可以鉴别色情内容，但在区别色情、性感、艺术等照片上还存在很大难度。

比如，好好的沙漠图片，就被AI给冤枉为色情图片了。

喏～

为了更好地解决色情问题，AI算法傲视群雄的Facebook的小扎，也依然在全球投入超7500人做内容人工审核。

“这个事情要这么看。AI鉴黄在识别能力上目前肯定是比不上人力鉴黄的，但是AI鉴黄的效率高，成本低，节省企业的人力成本，并不是说让AI完全替代掉所有人力。”姜泽荣解释到。

看来，完全取代人工的AI鉴黄，还任重道远啊。

借用专栏作者“开眼二郎”的一句话：2017岁末，2018跨年，本该是烟花爆竹，擂鼓轰鸣的喜庆日子，天空却划过来自今日头条的一声哀鸣。

曾经靠AI雄霸天下的今日头条，如今也因AI的不足，败给了色情。

真所谓，成也AI，败也AI。

热文精选

2018 年了，该不该下定决心转型AI呢？

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

盘点深度学习一年来在文本、语音和视觉等方向的进展，看强化学习如何无往而不利

先搞懂这八大基础概念，再谈机器学习入门！

这三个普通程序员，几个月就成功转型AI，他们的经验是...

干货 | AI 工程师必读，从实践的角度解析一名合格的AI工程师是怎样炼成的

AI校招程序员最高薪酬曝光！腾讯80万年薪领跑，还送北京户口

详解 | 如何用Python实现机器学习算法

经验 | 如何高效学Python？

Twitter大牛写给你的机器学习进阶手册

登录查看更多

3

相关内容

今日头条

你关心的，才是头条！《今日头条》会聪明地分析您的兴趣爱好，理解您的阅读行为，自动为您推荐喜欢的内容，并且越用越懂你！

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

新时期我国信息技术产业的发展

新时期我国信息技术产业的发展

专知会员服务

71+阅读 · 2020年1月18日

2019中国硬科技发展白皮书 193页

2019中国硬科技发展白皮书 193页

专知会员服务

86+阅读 · 2019年12月13日

【机器学习课程】Google机器学习速成课程

【机器学习课程】Google机器学习速成课程

专知会员服务

170+阅读 · 2019年12月2日

【会议推荐】CV101大会：AI+ 大数据时代的特征比对，张广立，英特尔物联网事业部中国区软件优化开发经理。（附PPT）

【会议推荐】CV101大会：AI+ 大数据时代的特征比对，张广立，英特尔物联网事业部中国区软件优化开发经理。（附PPT）

专知会员服务

12+阅读 · 2019年11月19日

开眼|鉴黄人工智能取代人工鉴黄师？这些图居然能搞错

开眼|鉴黄人工智能取代人工鉴黄师？这些图居然能搞错

机器人大讲堂

4+阅读 · 2018年8月19日

AI算法起家的今日头条为何败给了色情？

AI算法起家的今日头条为何败给了色情？

大数据技术

4+阅读 · 2018年1月5日

国家终于出手了！因为低俗，今日头条遭遇史上最大危机！

国家终于出手了！因为低俗，今日头条遭遇史上最大危机！

创业财经汇

3+阅读 · 2017年12月30日

羞羞的AI，如何改变色情产业？

羞羞的AI，如何改变色情产业？

虎嗅网

9+阅读 · 2017年11月24日

解析｜今日头条为什么能用“推荐算法”实现估值超110亿美元！

解析｜今日头条为什么能用“推荐算法”实现估值超110亿美元！

全球人工智能

3+阅读 · 2017年7月11日

DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation

DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation

Arxiv

5+阅读 · 2019年11月1日

Weakly-Supervised Deep Learning for Domain Invariant Sentiment Classification

Arxiv

4+阅读 · 2019年10月29日

Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation

Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation

Arxiv

3+阅读 · 2019年9月10日

Less is More: Learning Highlight Detection from Video Duration

Less is More: Learning Highlight Detection from Video Duration

Arxiv

7+阅读 · 2019年3月3日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

VIP会员

相关主题

相关VIP内容

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

新时期我国信息技术产业的发展

新时期我国信息技术产业的发展

专知会员服务

71+阅读 · 2020年1月18日

2019中国硬科技发展白皮书 193页

2019中国硬科技发展白皮书 193页

专知会员服务

86+阅读 · 2019年12月13日

【机器学习课程】Google机器学习速成课程

【机器学习课程】Google机器学习速成课程

专知会员服务

170+阅读 · 2019年12月2日

【会议推荐】CV101大会：AI+ 大数据时代的特征比对，张广立，英特尔物联网事业部中国区软件优化开发经理。（附PPT）

【会议推荐】CV101大会：AI+ 大数据时代的特征比对，张广立，英特尔物联网事业部中国区软件优化开发经理。（附PPT）

专知会员服务

12+阅读 · 2019年11月19日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

开眼|鉴黄人工智能取代人工鉴黄师？这些图居然能搞错

开眼|鉴黄人工智能取代人工鉴黄师？这些图居然能搞错

机器人大讲堂

4+阅读 · 2018年8月19日

AI算法起家的今日头条为何败给了色情？

AI算法起家的今日头条为何败给了色情？

大数据技术

4+阅读 · 2018年1月5日

国家终于出手了！因为低俗，今日头条遭遇史上最大危机！

国家终于出手了！因为低俗，今日头条遭遇史上最大危机！

创业财经汇

3+阅读 · 2017年12月30日

羞羞的AI，如何改变色情产业？

羞羞的AI，如何改变色情产业？

虎嗅网

9+阅读 · 2017年11月24日

解析｜今日头条为什么能用“推荐算法”实现估值超110亿美元！

解析｜今日头条为什么能用“推荐算法”实现估值超110亿美元！

全球人工智能

3+阅读 · 2017年7月11日

相关论文

DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation

DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation

Arxiv

5+阅读 · 2019年11月1日

Weakly-Supervised Deep Learning for Domain Invariant Sentiment Classification

Arxiv

4+阅读 · 2019年10月29日

Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation

Sunny and Dark Outside?! Improving Answer Consistency in VQA through Entailed Question Generation

Arxiv

3+阅读 · 2019年9月10日

Less is More: Learning Highlight Detection from Video Duration

Less is More: Learning Highlight Detection from Video Duration

Arxiv

7+阅读 · 2019年3月3日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

从传统方法到深度学习—— bilateral filter 到 HDRNet的演进

微信扫码咨询专知VIP会员