抖音上的猫鼠博弈

会员服务 ·

抖音上的猫鼠博弈

2020 年 12 月 3 日 人人都是产品经理

关注并将「人人都是产品经理」设为星标

每天早 07 : 45 按时送达

短视频的出现，使我们在碎片化时间有了可供消遣的内容。但是随着短视频赛道的逐渐拥挤，网络黑产也盯上了它。虽然抖音对不合规视频进行过治理，但是这种情况还没有被杜绝。面对打击黑产这个问题，抖音不能有侥幸心里，仍然需要竭尽全力。

作者：半佛仙人

微信公众号：半佛仙人

题图来自米高梅《猫和老鼠》截图

全文共 4103 字，阅读需要 8 分钟

—————— BEGIN ——————

现在是一个技术极度发达的年代，更是一个内容产业爆炸的年代。

在互联网的赋能下，我们所有人都可以在最短的时间内享受到最新鲜的内容服务，图文、视频、短视频、游戏，只有你不想要，没有你要不到。

但技术本身也是双刃剑，在我们享受到更多好内容的同时，也会有更多人在利用技术作恶。

工具不分善恶，在任何时候，只要可以获利，就会有人去钻研努力。技术和商业越发达，黑灰产就越猖獗。

有光必有影。面对信息差和技术碾压，普通人越来越难以和黑产对抗，因为对方玩儿的东西，你见都没见过。

同样的是：打击黑灰产，保护用户，将是内容平台的核心竞争力之一。

每一个内容平台都在研究如何对抗黑灰产，不仅仅是因为黑灰产会侵害平台的用户，更严重的是，当平台对内容失控的时候，在这个互联网文明底线越来越重要的年代，基本就代表了更严重的后果。

理由是苍白的，大家只看有没有做到。很多人以为的黑灰产仅仅是在发布一些看起来比较弱智的骗局，那理解就太浅薄了。

现在，在话题广场、论坛、评论区、用户昵称甚至私人对话，只要可以录入文字图片和语音的地方，就存在着失控的风险。

只要能传递信息，黑灰产就不会放过，过去是电线杆和公共厕所，现在就是所有媒介。

产品是简单的，人性是复杂的。作为内容平台，只能用尽全力去保护用户，击败对方，或者被对方击败。

抖音作为当前第一短视频平台，拥有最庞大的内容创作群体和内容消费群体。

在抖音上，内容创作者与内容消费者是可以直接交互的，这就代表在黑产眼中，这是流量富矿，并且操作空间巨大。

实际上，任何可以C2C的内容平台，都是可操作性的，但抖音流量最大。前段时间，“假靳东”事件闹得沸沸扬扬，这就是一起典型的C2C黑灰产诈骗。

在实际业务中，C端用户上传的内容天然具有很大的不可控性，因为每个人的价值观和法治观念都是不同的，你没法把所有人的思想和操作统一，很多人就是喜欢在内容平台上上传大量的违禁内容。

论坛时代走过来的老网民都懂，黄图和小视频总是拦不住大家的散播。

从平台角度而言，这些都是风险，需要在保证正常用户体验的前提下，降低内容风险。说白了就是，屏蔽风险内容，惩罚乱来的账号。

从平台角度来说，纵容这些乱来的账号和内容，属于找死。从业务上必须要杀，但是从技术上如何杀，就是非常具有挑战的问题。

不是说可疑就要杀的，不能因为少部分人的放飞自我就影响多数人的体验，大家出来做生意，用户体验是第一要义。

针对内容风险关系，第一轮，也是最基础的，是敏感词屏蔽。什么叫敏感词？可以简单理解为是大家在私下场合心领神会的说，但是在公开场合绝对不会说的那些东西。

在抖音平台上，敏感词出现在账号ID，个人简介，私信内容，视频封面等场合。针对敏感词屏蔽，抖音的策略是自建词库+机器学习+人工审核。策略包含敏感词收集策略，敏感词应用策略，敏感词处置策略。

在这里面，人工起到了很大的作用。

很多公司喜欢瞎吹人工智能，觉得人工智能能够解决一切问题，但现实业务中，人工智能对于语义分析是存在一定问题的。

大家日常对话的那些内容，不复杂，但是涉及到敏感词，汉语是博大精深的，使用各种谐音字、变体字、火星文，以及中间夹杂各种特殊符号和空格的模式，很容易就能绕过机器。

就例如微信这个词，可以变种成V信、VX、威、VV、V你懂得、威X信等等等等，在人眼中是一样的含义，但是在机器眼中截然不同。

作为已经把算法玩到极致的抖音，非常清晰的知道机器的力量有穷尽，人的主动识别配合数据分析师定向收集，再同步模型，才可以实现ROI最大化。

而且敏感词这个东西，收集很重要，怎么用更重要，一不小心就把好的坏的一起干掉了。

例如黄恐暴类的敏感词，标签对应的处置手段应该是直接屏蔽+封号或者直接禁止发布，不废话，直接干掉；
例如疑似推广号的标签，对应的处置手段应该是屏蔽+禁言，或者禁止发布，并给予警告；
例如命中了一些权重较弱的敏感词或者敏感字，对应的处置手段应该是转人工审核，再处置。

当然，具体的尺度，是不同厂家有不同的价值观。在抖音这边，力度一直是比较大的，因为流量和影响力都太大，出一点点问题，都是大问题。

说完敏感词，必然绕不开的是图片和短视频，这是抖音的看家本领，也是最需要风险管控的部分。

图片和视频带有的问题主要是三类：

1. 黄恐暴类内容，图片视频本身有问题

针对这部分内容，抖音建立了庞大的敏感素材库，外加机器+人工的审核机制。

巨大部分敏感图片和问题视频是直接过不了审的，发都发不出去。少部分有疑问，但是没法被机器判定为铁狼的内容，会转人工审核，无问题后再通过发布。

有一些是已经发出去但看的人比较少，人工还会做二次巡查，如果发现问题，第一时间下架或者限流；还有一些发出去已经开始推送起量的，人工会再次介入核查，确保每一个能被推送出去的内容，都是尽可能不存在问题。

2. 视频本身没黄恐暴负面问题，但是视频里面的东西有问题

例如：视频里面就有VX：12345，点我看片等字迹或者水印，这里除了第一条里面的相关规则之外，还要额外添加OCR环节。

要把视频里面所有可以转换为文字的信息（包括各种字体和字幕），全部都转化出来，然后由机器进行过滤。过滤完之后，还要人工再过滤。

3. 视频本身没有任何问题，但是视频带来的东西有问题

例如假靳东，靳东的祝福视频本身是正常的，但是被拿来用于诈骗，就非常的不正常。

针对视频正常的，但用途有问题的case，单靠机器讲白了没用。因为机器只能核验要素，无法核验用途。

机器风控很重要，但其实只是表层，而且永远难以做到穷举，真的一刀切下去，会误伤大量的正常用户，这对于用户体验和公司的商业价值而言都是损失。

这时候，主力军就成了人工。抖音投入了上万的审核人员做巡查，专门识别类似的风险内容，这块儿成本投入堪称恐怖。

但效果斐然，在4月份开始的仿冒名人专项打击中，已经封禁黑产作弊账号18万+，重置仿冒用户6W+，处理问题视频超过400万条。

这是成绩，成绩背后是成本。

机器加人工审核，能够解决问题吗？

严格来说，也不能，因为内容风险治理不是简单的拼策略或者拼算法或者拼人力。内容风险治理是一个系统性工程，不是说你有个好的算法或者你有一堆人就可以解决问题。

因为问题是每天都在发生的，不可能无穷尽的去堆资源，那就不要做生意了。所以有一个系统性工程，能够形成内容过滤的良性生态，才是从源头解决问题。

用更简单的话来说，单单是抖音自己在努力，其实是不够的，再多人力，也是有穷尽的。

再强大的机器算法，也是不可能不出错的，更何况很多风险内容本身就处在对与错的中间。最好的方法，是让用户也参与进来，发挥大家的力量。

大家希望看到优质且无风险的内容，平台也希望干掉那些有危害并令人不适的内容，利益诉求是一致的。

普通人的力量，才是最强的力量。针对让普通人也能参与，抖音一直以来坚持两步走。一步是抖音大力做用户教育，让用户自己意识到有些视频存在问题，养成合理举报的习惯。

即使一个视频机器觉得没问题，人工审核觉得没问题，巡检觉得没问题，但不代表一定所有人都适宜，有些细节问题可能只有特定的人能看出来，他们的力量非常重要。

过去一年，抖音安全中心已经产出75期防诈反诈教育视频，累计播放量7.1亿次。

另一步就是完善举报机制：用户自发来对问题视频进行举报，平台要做的不仅是认真且快速的审核处理，更要将相关案例做拆解，给相关的信息打上标签，优化机器模型。

机器的效率高于人，但机器依然要向人学习如何处理问题。

另外，仅仅是让用户参与，一起完善模型，还不够。防守永远只是防守，风险管理也要考虑进攻。

抖音针对各种发布违规信息的账号，会反过来追溯其特征，是哪些人，在哪些机器，以什么ID，用什么IP，进行了批量操作。

黑灰产这年头也不是用手的，大家都是机器批量操作，不然还没轮到鱼上钩就先饿死了。

举个例子，假如抖音发现某类黄恐暴内容，大部分发布者和点赞者的IP都是相同的或者都是同一个号段的，那么不仅可以设置策略屏蔽这个IP，更可以直接报警。

互联网不是法外之地，今年以来，抖音安全中心已经协助各地公安机关打击涉嫌诈骗、色情的黑灰产团队25个，刑事拘留87人。

这个数字单纯看起来不大，但这是一种震慑。告诉所有黑产，管住自己的手，不然看看同行的下场。有时候，震慑的威力要比直接出刀更加有效。

坦率地说，很多公司对于内容风控的价值和意义都是意识不到位的。

流量第一思想下，很多平台对于擦边球内容其实是睁一只眼闭一只眼的，毕竟是用户自发上传的东西，出了问题可以把锅甩给上传的用户。

但在这个过程中，好处是自己平台吃下了。这种野蛮生长的逻辑，其实是目光短浅的。

因为在这个互联网文明大趋势的浪潮下，内容出现风险不是简单的挨骂，而是切实的会直接影响平台的生存；因为互联网让内容的传播效率变快，那么必然风险的扩大也是同样的。

至于那点因为擦表球和默认黑灰产肆虐得到的流量，很有可能会被一把打的吐出来。

内容风控，将是这个年代所有内容平台的命门。

这是能不能持续做生意的问题，而不是赚多赚少的问题。另外，很多公司虽然也知道这个重要，但往往先期投入不足。

风险管理是一个长期的系统工程，临时抱佛脚其实意义不大，找谁来都没办法解决体系缺失的问题。模型要靠长期的算法迭代以及不停的数据积累来供养，先行者早就树立起了极强的风控壁垒。

这些壁垒需要大量的时间和资源投入，不是一朝一夕就有的，全部都是非卖品。当大家都发展起来的时候，有时候不是比谁赚的更多，而是比谁错的更少。

装傻装死一时爽，但问题不会因此消失，总要面对现实。所以打击黑产，不能有侥幸心里，需要竭尽全力。

从过去，到现在，到将来，都是如此。

—————— / END / ——————

▼ 喜欢请分享&收藏，满意点个赞，最后点「在看」 ▼

登录查看更多

相关内容

C2C

关注 0

C2C（Consumer to Consumer）消费者对消费者，即个人直接面对个人消费者进行产品及服务的销售，是现在电子商务领域常见的一种运营模式。

【WWW2021】挖掘双重情感的假新闻检测

专知会员服务

37+阅读 · 2021年1月18日

基于事件社会网络推荐系统综述

专知会员服务

70+阅读 · 2021年1月13日

深度伪造与检测技术综述

专知会员服务

74+阅读 · 2020年12月12日

【LinkedIn工程总监洪亮劼】浅谈工业级推荐系统，附36页ppt与视频

专知会员服务

31+阅读 · 2020年10月6日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

【WWW2020-UIUC】为新闻故事生成具有代表性的标题

专知会员服务

27+阅读 · 2020年3月18日

【慕尼黑工业大学-Matthias Niessner】人工智能驱动的视频合成及其意义，104页ppt

专知会员服务

23+阅读 · 2020年3月15日

新时期我国信息技术产业的发展

专知会员服务

71+阅读 · 2020年1月18日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

互联网、社会互动和群体行为，中国人民大学冯仕政教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

33+阅读 · 2019年10月23日

分析 | 抖音背后的计算机视觉技术

计算机视觉life

9+阅读 · 2019年5月31日

那些竞相将DeepFakes商业化的AI初创公司

AI前线

10+阅读 · 2019年5月4日

2019，再不做私域流量就晚了？

互联网er的早读课

16+阅读 · 2019年4月10日

抖音爬虫

专知

3+阅读 · 2019年2月11日

【每日安全资讯】AI公司面临隐私问题不少仍坚持原则拒绝商业机会

Linux中国

3+阅读 · 2018年7月10日

抖音完了！这次道歉也没用了

今日互联网头条

9+阅读 · 2018年7月2日

我是一个爬虫

码农翻身

12+阅读 · 2018年6月4日

不对称多代理博弈中的博弈理论解读

AI前线

14+阅读 · 2018年3月8日

AI算法起家的今日头条为何败给了色情？

大数据技术

4+阅读 · 2018年1月5日

抖音的 2017 和它背后的黑科技

PingWest品玩

8+阅读 · 2018年1月4日

Learning Adversarial Markov Decision Processes with Delayed Feedback

Arxiv

0+阅读 · 2021年1月29日

An overlapping splitting double sweep method for the Helmholtz equation

Arxiv

0+阅读 · 2021年1月29日

Counterfactual State Explanations for Reinforcement Learning Agents via Generative Deep Learning

Arxiv

0+阅读 · 2021年1月29日

The one-phase fractional Stefan problem

Arxiv

0+阅读 · 2021年1月26日

Learning Latent Representations to Influence Multi-Agent Interaction

Arxiv

11+阅读 · 2020年11月12日

Learning Discriminative Model Prediction for Tracking

Arxiv

6+阅读 · 2019年4月15日

ANS: Adaptive Network Scaling for Deep Rectifier Reinforcement Learning Models

Arxiv

3+阅读 · 2018年9月6日

Are Generative Classifiers More Robust to Adversarial Attacks?

Arxiv

4+阅读 · 2018年7月9日

Collaborative Filtering with Topic and Social Latent Factors Incorporating Implicit Feedback

Arxiv

7+阅读 · 2018年3月26日

Comparative Study of ECO and CFNet Trackers in Noisy Environment

Arxiv

5+阅读 · 2018年1月29日

VIP会员