国内首份内容产业智能化报告：AI与5G技术驱动下的内容产业变革

2019 年 9 月 1 日 机器之能

我们理解的数字内容，是所有内容的数字化，包括文本、图像、音频、视频等内容载体形式。5G 的发展会进一步促进内容生产与传播形式的演变，未来所有智能设备终端都会成为数字内容的信源或推送终端，有屏就有数字内容。

但在数字内容这一新兴产业集群的生产链条里，我们需要考察的不仅是业态、生态，更需要结合政策、法律、安全性等多类因素，全方位地去认识技术赋予内容产业全新的发展机遇。

8 月 30 日，在由赛博研究院承办，腾讯、上海社科院互联网研究中心等联合协办的 2019 世界人工智能安全高端对话上，腾讯安全战略研究中心联合赛博研究院重磅发布《人工智能时代数字内容治理的机遇与挑战》报告。该报告也是国内首份聚焦人工智能与数字内容行业关系，全景式地呈现了数字内容产业发展趋势、挑战风险、政策创新、治理赋能。

蓬勃发展的数字内容产业是前沿数字化信息技术与文化创意内容高度融合的产物，天然兼具科技与文化两种属性，是互联网时代人类文化的主要载体和社交传播的内核，甚至凝聚各个共同体的理念价值, 将创造新的个体精神世界。

数字内容产品/服务以多种载体形式呈现，基于各类数字化平台广泛传播，并不断延伸到其他垂直行业，比如涉及到数字出版、数字广播、数字电视、数字电影、数字音乐、数字动漫、数字游戏等多个细分行业，也关联到数字内容产品与服务的生产（UGC、PGC 等）、研发、经营、传输、技术支持等产业综合体的多项复杂环节。

人工智能与数字内容发展相辅相成。人工智能促进了数字内容产业迭代演进，数字内容产业也成为人工智能技术发挥其作用的主要场景之一，甚至成为信息技术研发应用的重要导向。

以数字内容发展为例，基于专家系统（Expert System，ES）的「媒体大脑」等应用，能够对海量异构数据进行高效的预处理和标准化管理，管理内容资源库，充分挖掘内容素材和文化创意；自然语言处理（Natural Language Processing，NLP）和计算机视觉 (Computer Vision，CV) 能够完成对各种形式和场景下数字内容含义的辨识理解，实现内容的精准匹配和个性化定制；机器学习 (Machine Learning，ML) 技术在对内容主体进行要素画像和标签设定方面表现突出，使得数字内容突破媒介限制，充分延伸到消费者和其他产业等。

同时，AI、5G、大数据、云计算、物联网等各类先进数据智能、网络基础设施的新技术交织融合，为数字内容应用与服务提供了创新扩容支持，以全程媒体、全息媒体、全员媒体、全效媒体为代表的全媒体将崛起发展，未来，万物互联、万物皆媒，万物成为数字内容的载体和出口。

表 1 互联网时代与人工智能时代数字内容产业比较

美国标普公司的报告显示，全球数字内容产业的直接总产值在 2018 年达到 1896 亿美元，预计到 2025 年底将达到 3438 亿美元。我国国家统计局数据显示，2017 年，以「互联网+」为主要形式的文化信息传输服务业营业收入 7990 亿元，增长 34.6%。

另据我国工信部统计，2017 年我国以 IP 为核心的网络文学、动漫、影视、游戏和音乐等泛娱乐产业约为 5484 亿元，同比增长 32%，占数字经济的比重超过 20%。

互联网用户规模特别是移动用户的快速増长为数字内容产业的发展提供了核心动力，催生了短视频、AI 直播、VR、AR 等新兴业态，以及基于算法推荐的个性化信息服务商业模式。

从用户规模看，我国网民使用率最高的 TOP10 互联网应用中，80% 以上的应用与数字内容产业直接相关，平均用户规模超过 6 亿。从具体行业看，网络视频、网络游戏已成为数字内容产业中的热点领域；社交媒体继续保有数字内容产业产值和用户数量领先的地位；短视频、网络直播和垂直知识平台增长迅猛，投资火热；数字音乐市场快速增长，全球付费订阅音乐服务的营收也增长到了 34.98 亿美元；虚拟现实和增强现实（VR/AR）技术改变了数字内容产业的产品形态和传播方式，在新闻、旅游、娱乐等领域纷纷落地应用。

数字内容产业呈现六大发展趋势

数字内容产业整体发展趋势体现为纵向延伸、垂直整合、跨界布局、生态融合，行业边界逐渐消弭，数字内容产业催生新的社会化分工，孵化出新的产业价值体系，在内容生产、传播、消费、载体、质量、安全等各环节或方面呈现出六大发展趋势。

1. 内容生产：「人-机」协同的智能化生产模式将广泛应用

机器将替代信息挖掘、数据检索、媒体资源管理等基础性机械劳动，进一步解放媒体工作者劳动力。

2. 内容传播：算法精准推荐占据信息流分发主导地位

算法能够实现进行数字内容聚合和精准推荐，快速匹配信息与人。比如，智能机器人可以用于跨语言、跨业态的沟通和搜索信息，情感识别技术可帮助改变僵硬固化的标签设置，使定推更加感性和灵活。

3. 内容消费：沉浸式体验与交互式反馈提供个性化选择

可消费的内容形式将拓展至 VR、AR、MR、立体影像、智能音响等搭载智能交互功能后形成的沉浸式体验产品/服务；数字内容消费反馈的实时性随之增强，生产者与用户间信息交互无处不在；用户将在数字内容消费中扮演更为主动的角色，参与到数字内容的文化创意、内容生产过程中。泛娱乐业与媒体行业势必会使用更广泛的人工智能技术以为用户日益增长的对更佳的沉浸式体验与交互式反馈的需求提供更多个性化选择。

4. 内容载体：万物皆媒环境中数字内容嵌入各类行业场景

新技术普及应用将带来巨大的数据量和广泛的连接终端，人工智能保证了海量异构数据的高效和有效转化。万物互联、万物皆媒的未来，金融、家居、汽车、教育、医疗等各类场景均正在或将成为数字内容新的载体、传播渠道和信息终端。此外，人工智能在知识产权保护、数字营销、广告宣传等各领域均有应用，极大地拓展了数字内容的外延。

5. 内容质量：「内容为王」成为数字内容产业核心竞争力

用户面对爆炸式增长的海量信息难免无从甄别，各类软文广告、虚假新闻和不良信息不断侵害用户的时间线；数字内容的生产者与用户间的界限日渐模糊为治理带来更多复杂性和不确定性；基于人工智能的智能生产和精准匹配仍存很大提高空间，多种因素导致当下数字内容质量良莠不齐。

在此背景下，人们的消费数字内容的核心需求将升级为对优质内容的深度体验，更具创意的成熟内容以及更为合理的商业模式，成为未来数字内容产业的核心竞争力。

6. 内容安全：各类治理难题凸显，机遇与挑战长期并存

一方面，固有顽疾与新生挑战交织，风险复杂泛化，传统监管模式滞后于产业新业态，各类风险不断冲击着现有法律政策体系和公众道德认知，很大程度制约了数字内容产业的优质发展。

另一方面，风险挑战本身亦是安全应用的广阔发展前景，对人工智能技术本身的优化，以及对其在治理各环节应用的积极探索，能够为治理机制的完善提供技术支撑，保障数字内容产业健康高质量发展。

AI 与数字内容交织引发七大风险

人工智能助推数字内容产业颠覆性发展，难免伴随着现有治理模式及监管体系与新业态的不匹配，既存在现行治理手段滞后带来的治理失效和力不从心，也体现为数字内容治理问题与其他社会问题及风险的交织泛化，主要风险包含以下七大类：

1. 数字内容极大丰富与内容审核能力不足的矛盾凸显

面对庞大的数字内容洪流和各国日趋严格的内容审核政策，试图依靠传统审核模式实现内容含义的准确判断并及时应对信息爆炸引发的各类问题，越发捉襟见肘。内容审核因工作量繁重，工资偏低，海量负面内容轰炸以及高准确率的内容审核要求，对从业人员产生不小的精神以及身体创伤。尽管机器审核能够有效缓解人工审核压力，却可能存在因算法审核机制不完善而导致的结果歧视。

2.「算法偏见」与「算法黑箱」影响数字内容公正性，技术攻关存难度

算法推荐的歧视结果导致用户接收不公正、片面加强或偏差的信息。

算法在数字内容产业各环节的普遍应用，不可避免的会遭遇算法黑箱风险：一方面表现为公众难以或无法理解内容生产、推送和传播背后的流程逻辑，无从对推荐内容做出反馈和干预，甚至对推荐内容产生反感、质疑情绪；另一方面，受决策不可解释的局限，政府部门针对算法输出的错误结果归因问责困难，从而采取更加严苛的数字内容监管措施。

3. 内容造假滋生灰色产业，深度伪造威胁国家社会稳定

以炮制虚假新闻（Fake News）和深度伪造（DeepFakes）为典型风险。政治或经济利益驱动下的内容造假，大范围地广泛传播或是针对特定人群的精准推送，将恶化数字内容质量，破坏信息传播秩序，误导用户判断，甚至催生或煽动社会极化情绪, 诱发各种社会问题。

4. 智能化内容生产权责归属困难，版权保护亟待健全法规体系政策

人工智能所生产内容的版权问题包括可版权性和版权归属两个问题，其实质是人工智能是否应当以及能够具备明确的法律主体地位，这是人工智能技术应用对现行法律体系革命性冲击的又一表现。

5.「信息茧房」循环强化，或引发网络社群「部落化」、「集群化」

算法主导下的内容分发模式，会放大和加强被标签了的信息输出和推送，由此引发「自我封闭」的危险。相同观念的人们在各类议题热点下逐渐聚集，对所处社群观念不断强化认知，加速网络社群的「部落化」，甚至最终走向不同社群间观念极化对立和舆论失衡的极端。

6. 无序数据挖掘泄露个人隐私，跃升数字内容治理突出问题

人工智能应用可采集的信息更加丰富多样，包括用户人脸、指纹、声纹、虹膜、心跳、基因等具有强个人属性的生物特征信息。这些信息具有私密性、唯一性和不变性，一旦被泄露或滥用将对公民权益造成严重影响。此外，如利用人工智能技术对公开合法手段所收集的非敏感信息进行综合关联分析，同样能够推测出敏感个人信息的风险，而各种匿名化的技术也增加了个人信息保护的难度。

7. 信息资源竞争或催生新的数字鸿沟，将成数字内容治理新难题

信息社会的竞争目前已逐渐演变为对信息资源的争夺，谁拥有信息资源，谁才能有效地使用信息资源。人工智能的价值分配会使一部分群体受益，那些拥有信息及强大数据处理能力的企业或个体通过人工智能技术获得更多信息占比，从而获取更多优势，或可能产生新的数字鸿沟和机会差距。

另外，人工智能时代各国数字内容产业发展的背后，是本国几乎全部文化信息的「数字化曝光」，传统时代难以获取的社会情报将在人工智能时代公开化，数字内容强国的「战略传播」将更为便利。

AI 时代，各国数字内容治理举措差异明显

当前，不同国家的数字内容产业有着不同的发展路径，所呈现的治理问题在种类、风险和危害程度上亦有差异。在应对人工智能时代新型、复杂的治理挑战时，现行数字内容治理政策显得较为滞后和无力，但都结合各国数字内容发展情况作出各有侧重的政策创新和尝试。例如，美国强调对内容造假和算法歧视冲击国内政治生态的问题治理，欧盟强化算法伦理规范，对数据泄露和歧视言论采取较为严格的规制，新加坡和日本除了同样重视人工智能技术的赋能作用以外，就内容造假和知识产权问题开启多项立法进程。我国主要通过健全完善数字内容垂直领域的政策规制展开治理，集中关注新闻信息服务、社交群组、泛视频、直播和电子游戏。

AI 在数字内容治理的八大落地场景

报告具体考察了国内外企业运用人工智能技术保障数字内容安全的 20+案例，以治理场景为导向，介绍人工智能技术在内容审核、事实核查、版权保护、打击诈骗、舆情治理和破除信息茧房等场景领域的技术应用思路和产业探索实践。

如在内容审核方面，人工智能技术极大地提高了不良信息识别发现、审核判别、处置处罚等治理效率，有效节省人力、物力成本。

Facebook 公司开发使用 eGLYPH 工具用于极端主义、歧视言论的内容审核，包括事前审核、事后检测、删除和防止洗稿上传。

而国内对于内容审核的技术应用同样出众，如基于腾讯云图像分析等人工智能技术，微信推出「珊瑚内容安全助手」小程序，为广大小程序开发者提供风险自测、内容鉴别、行业动态三个维度的内容安全能力。

在事实核查方向，解决三个问题：实时、权威、到人。基于人工智能技术的数据挖掘、文本汇聚、深度学习等技术能够有效检索虚假内容的传播源头，构建各类结构数据库和标识体系，帮助核查者对海量资讯进行针对性处理，随着对合成图片、声音和视频的鉴伪技术和溯源技术的研发精进，对虚假信息的识别取得了较大突破。

国内腾讯微信公众平台辟谣中心、微信安全中心、腾讯新闻较真平台、腾讯内容开放平台企鹅号等探索出一系列有效的事实核查措施，如打造辟谣数据库，智能识别处置谣言，借助机器算法触达谣言易感人群，基于阅读或投诉谣言的类型标签进行精准推送辟谣防谣。

法国《世界报》推出了一个名为「Décodex」的事实核查数据库，帮助读者识别假冒或不可靠的网站。《世界报》事实核查团队查证了 600 多个网站，其中包括博客网站、Facebook 网页、Twitter 账号等，依据它们的可信度和准确性，对这些网站进行分类。此外，使用《世界报》网站搜索引擎，读者可通过颜色编码系统快速判别某网站的可靠性，标记为绿色的网站高度可靠，黄色应谨慎阅读，红色意味着该网站虚假信息威胁度极高；讽刺性网站标记为蓝色，而一些不能被验证的网站则被标记为灰色。用户还可主动标记尚未成为数据库一部分的其它网站，经后台系统审核确认后添加近数据库，《世界报》同时宣布其数据库将保持开源，希望接入全球社会全民的事实核查的能力。

在破除信息茧房方面，用户接受信息的总量是有限的，「茧房」边界可能始终存在，人工智能或许会带来信息茧房甚至引发舆论失衡和社会极化。但同时，人工智能可以通过算法在「精准化」和「多元化」两个方向的优化，不断进化破除信息茧房。

主要在四点做法：

第一，在算法设计中挖掘用户选择更深层次因素的分析，需要更精准挖掘。

第二，解决对特定用户不同维度需求的类别之间的隐性关联，要加强对它的学习。这点上，机器学习能够发挥的空间非常大。

第三，在时间线中，按照特定比例推送给用户不常接触到的信源或内容，按照比例定推使内容推送多元化，除了它喜欢的以外还要加一些其他的东西平衡。比如，算法优化还可以基于对特定用户群体提供不同内容推荐模式，比如基于地理位置和行为的分析，识别出青少年或老年人群体，自动切换推荐模式来保障特定「数字弱势」群体的内容消费安全和质量。

第四，加入自定义修改规则。比如使用 RSS 工具，具有技术素养的人可以通过修改定推的规则来实现平衡自己想去看的内容。

AI 时代数字内容治理展望

人工智能是信息时代未来技术发展的主流方向，而数字内容将成为信息时代人类文化的主要形态，两者的结合是前沿科技与创新文化的深度融合，人工智能在数字内容领域的应用和赋能将成为未来数字经济时代最重要的特征之一，数字内容产业也将成为人工智能时代的核心产业之一。