AI如何反低俗?今日头条推内容检测工具“灵犬”3.0,首次公开其技术原理

2019 年 7 月 31 日 量子位
安妮 发自 北三环西路
量子位 出品 | 公众号 QbitAI

男默女泪、不看不是中国人、看完惊呆、身份惊人、不看吃亏、癌症凶手……这些标题党文章的惯用词汇,还熟悉吗。

昨天(7月30日),今日头条发布内容健康度检测工具“灵犬3.0”,不仅能够识别这些低俗内容、暴力内容和标题党,还能支持图片识别功能。

今日头条表示,在文字识别领域,灵犬3.0的检测准确率从此前的85%,上升至91%。图像识别领域,在数据、模型和计算力方面也做了针对性优化。

这一次,字节跳动AI实验室首次揭秘其反低俗系统概况,以及相应的技术原理。

改进了哪里?

这个叫作灵犬的小程序,可以从微信小程序“灵犬反低俗助手”或今日头条内打开。

所以,和去年5月的灵犬2.0小工具相比,3.0版的灵犬改进了不少。

先是界面有变。此前的检测界面,分为反色情低俗、反暴力谩骂和反标题党三类,新版将这三者合为一体,统一成了文本识别。

 左:3.0版灵犬界面;右:2.0版灵犬界面

用户只需输入一段文字或文章链接,就能检测内容健康指数,系统返回一个鉴定结果。包括是否可以获得算法推荐,是否需要引入人工判断等。

其次,新系统可识别图片,上传图片或其连接,就能一键检测图片的健康指数。

今日头条表示,自去年3月推出一代灵犬开始,到今年6月为止,灵犬反低俗助手的使用人次已经超过了300万。

BERT加持

字节跳动人工智能实验室总监王长虎表示,和一般的采用分词技术+词表技术文本识别方案不同,灵犬采用NLP技术。

相比于上一代,灵犬每更新一次,就进化一次。

王长虎表示,1.0版采用词向量+CNN技术,训练数据集包含350万数据样本,对随机样本的预测准确率达到79%。

到了2.0版,技术就变成了LSTM(长短时记忆)+注意力机制,前者擅长对序列进行建模,对长句的识别效果好,后者帮助对句子全局有一定了解。此时训练数据集包含840万数据样本,准确率提升至85%。

王长虎表示,3.0版灵犬同时应用了BERT和半监督技术,并且在此基础上使用了专门的中文语料,在不牺牲效果的情况调整了模型结构,使得计算效率能达到实用水平。

这一代“灵犬”训练数据集总量是1.2个T,相当于20倍百度百科或100倍维基百科的数据总量,包含920万个样本,准确率提升至91%。

量子位此前报道过,说BERT是2018年最火的NLP模型一点也不为过,它甚至被称为NLP新时代的开端。

它由Google推出,全称是Bidirectional Encoder Representations from Transformers,意思是来自Transformer的双向编码器表示,也是一种预训练语言表示的方法。

王长虎表示,最新图片识别和检测功能的推出,背后也曾面临3个技术难点。

一个图像多尺寸问题,解决方式就是多桶模型,每个桶的模型处理不同尺寸的数据。这样,既不会增加模型运算的耗时,还能提升准确率。

二是图像多尺度问题,图片中的人像的尺寸和比例不同,因此研究人员构建了特征金字塔。

三是小目标问题,也就是说低俗内容只有一点点。今日头条采用分割辅助分类网络方案,把低俗位置抠出来,结合区域信息整体分析,解决小目标问题。

AI内容监管员

今日头条表示,反低俗系统从2012年就开始建设了。

从创立开始,已经把包括反低俗在内的内容安全,放在公司最高优先级队列。成立之初,已经专门设有审核团队,当时研发所有客户端、后端、算法的同学一共不到40人。

王长虎表示,灵犬只是今日头条反低俗系统一个检测的窗口,今日头条的反低俗不止于灵犬,还有类似的数百个模型,解决低俗低质、暴力等内容,还有近万人专业内容审核团队。

AI代替部分内容审核员的工作,不只今日头条,其他内容平台也都推出过类似产品。

今年6月,微信上线了一款叫“珊瑚内容安全助手”的小程序,只要面向公众号内容运营者和小程序开发者,任何人可一键识别内容和产品是否安全,是否可以通过检测。

小程序显示,目前能鉴定图片和文字内容,后续还将陆续上线音频鉴别和视频鉴别。

再比如想用AI打造智能社区的知乎,去年4月上线了一款专治“答非所问”的机器人瓦力,用机器学习去理解问题下的内容,以快速处理答非所问和辱骂、贴标签等不友善内容,还能识别阴阳怪气(反讽)的回答。

不过效果也得两面看,上线一年多,已经有不少用户觉得瓦力的检测效果略感智障,出现了识别不准、莫名折叠回答的情况。

当然,也少不了不少社交平台的内容检测玩家。

Facebook,一个越活用户近20亿的社交平台,每天面临着C端用户贡献的各式各样的图片和文字信息,检测这些内容是否合规,还靠AI。

它们靠一个名为Rosetta的机器学习系统,能实时从10亿图片和视频中提取文字,识别文字包含的信息,检测内容的安全性。

AI已经开始大面积内容监管人员,节约了大量人力,但又何尝不是另外一场由人力堆砌的工作呢?

“灵犬”们还需进化,直到不再需要这么多人的那天。

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !




登录查看更多
1

相关内容

你关心的,才是头条!《今日头条》会聪明地分析您的兴趣爱好,理解您的阅读行为,自动为您推荐喜欢的内容,并且越用越懂你!
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
今日头条技术架构分析
互联网架构师
11+阅读 · 2019年8月19日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
苹果首次披露Siri声纹识别技术
AI前线
6+阅读 · 2018年4月17日
AI算法起家的今日头条为何败给了色情?
大数据技术
4+阅读 · 2018年1月5日
中国平安股价持续大涨背后
凤凰财经
5+阅读 · 2017年9月13日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Arxiv
3+阅读 · 2018年10月25日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Arxiv
3+阅读 · 2018年6月24日
Arxiv
8+阅读 · 2018年5月17日
Arxiv
8+阅读 · 2018年4月8日
Arxiv
4+阅读 · 2017年11月14日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关资讯
今日头条技术架构分析
互联网架构师
11+阅读 · 2019年8月19日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
苹果首次披露Siri声纹识别技术
AI前线
6+阅读 · 2018年4月17日
AI算法起家的今日头条为何败给了色情?
大数据技术
4+阅读 · 2018年1月5日
中国平安股价持续大涨背后
凤凰财经
5+阅读 · 2017年9月13日
相关论文
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Arxiv
3+阅读 · 2018年10月25日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Arxiv
3+阅读 · 2018年6月24日
Arxiv
8+阅读 · 2018年5月17日
Arxiv
8+阅读 · 2018年4月8日
Arxiv
4+阅读 · 2017年11月14日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员