CNCC2018 | 高通量媒体内容理解论坛抖音快手齐上阵，你 pick 谁

2018 年 11 月 5 日 中国计算机学会

本文转载自雷锋网(公众号：雷锋网) AI 科技评论

在「高通量媒体内容理解」论坛上，来自学界和产业界的嘉宾带来了四场精彩的分享，内容涉及到一系列图像、视频理解相关技术及其应用，还有目前所面临的一系列挑战。

在「高通量媒体内容理解」论坛上，来自学界的两位嘉宾——中国科学技术大学张勇东教授、北航计算机学院长江学者特聘教授李波，以及来自产业界的两位嘉宾——字节跳动人工智能实验室总监王长虎、快手多媒体内容理解部负责人李岩带来了四场精彩的分享，内容涉及到一系列图像、视频理解相关技术及其应用，还有目前所面临的一系列挑战。

论坛伊始，论坛主席、合肥工业大学计算与信息学院教授洪日昌对高通量媒体进行了介绍，他表示，在大数据时代，以图像、视频为代表的高通量媒体内容数据不仅规模庞大，还具有三个特点：高维度、大流量、高并发。今天的嘉宾将会针对高通量媒体内容，站在学术和工业界的角度进行分享。

中国科学技术大学张勇东教授是第一位上台演讲的嘉宾，他的演讲主题为《互联网视频的高效流式计算》。

中国科学技术大学张勇东教授

大数据处理系统可分为批量计算和流式计算，他形象地介绍了这两种计算并探讨了其差别。流式计算是指利用分布式并行化的思想和方法，对海量流式数据进行实时处理。批量计算的特点是时效性、持续性、鲁棒性、高发性。

目前面临的问题是，视频网站产生的数据非常多，表现出强动态、大流量、高并发的特点，传统的计算方法难以解决现有问题。他讲解了视频流式计算研究框架，主要应用有互联网视频内容安全（实时发现与阻断视频流有害内容），互联网视频信息服务（视频流在线转播、检索等）。

随后，他剖析了技术发展现状：

流式编解码计算存在问题。前人研究希望通过算法简化/动态调度解决这一问题，但算法简化会导致视频压缩性能损失大，动态调度会导致并行粒度低。

流式相似性计算。传统方法是基于尺度空间等比固定、数据独立分布的假设，但这存在弊端。通过哈希学习忽略了流式计算的特性。
流式语义计算。存在的问题是视觉多义性和语义多态性强，视觉语义复杂关联。前人试图通过全局分类方法解决这一问题。

针对前面的问题，相关研究如下：

视频流式编解码。针对模式决策、运动估计、环路滤波都提出了新方法。他描述了基于图优化的并行运动估计、基于概率转移预测的并行环路滤波等，并与传统方法进行了对比。

视频流式相似性计算。他谈到特征提取、特征融合、特征量化、特征索引、特征度量。在数据去相关性、特征融合上，他谈到数据去相关性形式化描述。

视频流式语义计算。一是稀疏集成学习，二是弱标注的语义深度学习。他详细介绍了稀疏集成学习的框架图，实验情况，弱标注的语义深度学习模型。

演讲最后，张勇东教授对视频流式编解码、视频流式相似性计算、视频流式语义计算、视频流式计算平台方面的下一步的工作进行了展望。

第二位演讲嘉宾是字节跳动人工智能实验室总监王长虎博士。开场伊始，他用一段简短视频对抖音进行了介绍。他总结道，抖音里的内容非常丰富和精彩，也进一步分析了抖音影响力如此大的三个因素：算法力、运营力、产品力。

字节跳动人工智能实验室总监王长虎博士

他此次带来的内容是抖音背后一系列的计算机视觉技术，包括 AI Camera 技术、人脸检测和标定技术、人体关键点检测技术、分割技术。他分别分析了抖音在这些技术上的优势和目前面临的挑战。对于人脸检测和标定技术，他们的优势有关键毫秒级定位，在侧脸、暗光等复杂环境下算法鲁棒，这一技术的应用场景非常多，例如人脸美化，贴纸、人脸特效，眉形、美瞳、口红等的在线试妆。

随后，他谈到视频推荐以及视频理解。在视频推荐算法中，如何优化打分函数，让用户获得更好的体验，这是值得研究的重点。视频理解包括对视频分类、打标签等，面临的挑战有很多，如投稿量巨大、视频持续快速增长、覆盖范围广、产品影响大、算法要求高、问题种类多、样本极不均衡、问题区域小，解决方式也有很多，如人机耦合、多重审核机制、定制化模型。

随后他还提到大规模视频分类和标签，他举出了一些需要用技术解决的例子，如筛选出一些无意义视频、黑屏视频等。对于视频中的 OCR 技术，他表示，有些问题很难，需要能精细检测和分割。

最后，王长虎博士总结，计算机视觉技术除了在抖音上有广泛应用，还支撑着今日头条、火山小视频、西瓜视频。他表示，计算机视觉是抖音和今日头条很多产品的重要基石，希望更多老师和同学加入字节跳动公司。

快手多媒体内容理解部负责人李岩是第三位上台嘉宾，他的演讲内容是《多模态内容生成与理解》。在演讲中，他为大家介绍了快手是一家怎样的公司，以及他们为什么要研究多模态内容生成与理解技术。

快手多媒体内容理解部负责人李岩

「即使你处在偏远的山村，也有希望通过快手的作品获得更多粉丝，消除孤独感，获得更多的连接。」李岩如是说道，他举了几个典型的快手视频案例来说明。

快手有海量多模态数据，超过 70 亿条短视频数据，超过 150 亿条视频播放数据。他强调，多模态技术有两大应用，一是会改变人机交互方式，二是使得信息分发更加高效。但现在研究这样的问题还非常难，存在三大挑战，一是语义鸿沟，二是异构鸿沟（数据种类比较多），三是数据缺失（多模态数据非常难以构建）。

他表示，快手也在一直努力，希望大家能更好地记录，让每个人成为自己生活的导演，希望记录的过程能便捷、个性化、有趣、普惠。他如下几个例子：

自动字幕与智能配音。可以通过语音合成技术更好地满足记录需求，这会使记录更加便捷和有趣。随后他也详述了语音识别和合成技术，也提到目前用得比较多的深度学习技术。

音乐自动生成技术。视频配乐相对来说还比较难。在视频音乐生成上涉及到非常多的技术，也有一些领域知识，如歌曲结构、歌曲速度、音乐基础要素，这可能需要研究音乐和计算机视觉的人互相配合。

Animoji。大家可以通过快手直接在安卓手机上体验，降低了用户的体验成本。目前他们的技术可以敏锐地捕捉到面部表情变化，拉低了硬件门槛。

最后他总结到，未来会有两个非常重要的方向：多模态特征对齐和多模态特征表示。他表达了如下三点展望：一是多模态会带来新的人机交互方式，二是多模态会带来新的内容形式，三是多模态急需新的算法和大型数据集。

最后一位演讲嘉宾是北航计算机学院长江学者特聘教授李波，他的演讲主题为《面向公共安全的天空地网大数据一体化处理》。

北航计算机学院长江学者特聘教授李波

网络世界中新型犯罪活动层出不穷，比如电信或网络诈骗、跨境网络攻击等。外国军机非法侵入我国海域，仅利用航天成像无法获取目标的全面画像，可以将天空地网协同应用，利用互联网得到目标的更完整信息。

李波教授提到利用天空网信息结合挖掘目标完整画像的案例，也谈到遥感图像与社交媒体融合以及美国在公共安全领域的研究与应用。

随后，他提出了几项关键科技问题：

天空地立体感知问题：空间尺度差异大，时效性差异大，视角差异大，分辨率差异大。

网络内容分析问题：网络形式多样、使用独立；网络内容繁杂；用户行为复杂，全貌模糊；行为轨迹碎片化。

天空地网数据综合应用问题：图像视频结构化描述简单；案件涉及多维度的关联分析，如时空关联、因果关联等。

解决思路如下：

基于时空关联的目标与事件检测

在地面上，可以利用时空结合的场景语义分割；还可以通过天空地相互引导，实现立体感知。

面向实体的跨网内容关联

这里涉及到基于关键要素的敏感内容检测。在检测的基础上，可以进一步基于相似语义和时空关联的知识学习进行知识抽取，随后基于概念属性的跨网身份关联，实现跨网知识融合。

虚实融合的一体化事件分析

实是指物理世界，虚是指网络世界。可以生成实体-动作元事件模型，结合警务知识指导的事件分析，进行公共安全事件研判。

李波教授的演讲结束之后迎来精彩的圆桌讨论环节，快手多媒体内容理解部负责人李岩、北航计算机学院长江学者特聘教授李波、字节跳动人工智能实验室总监王长虎、国家互联网应急中心张冬明纷纷上台，展开了更多对高通量媒体内容理解的探讨，现场观众也发表踊跃提问。随后，李波教授对今天的论坛做出总结，对在场观众表达了感谢。精彩的论坛就此结束，但对多媒体内容的探讨还在继续。