业界｜互娱、电商、广告？Video++在用AI帮助视频和直播创收

2017 年 9 月 26 日 机器之心

机器之心原创

参与：杜夏德

视频互联网 VS 互联网视频，一词之隔，却已等待十二年。

眼下的的互联网科技圈，人工智能技术的火热程度堪比演艺界的小鲜肉。金融、医疗、自动驾驶、安防、生物技术、法律、家居等行业的 AI 应用已然是屡见不鲜。根据腾讯研究院近日发布的报告《中美两国人工智能产业发展全面解读》，中国人工智能企业数量为 592 家。金融、安防、医疗无人驾驶国内人工智能最火的几个领域，除了百度、阿里巴巴等巨头，创业公司也比比皆是。而在在消费级视频平台技术领域，Video++「算是第一个吃螃蟹的。」

过去几年，金融和安防领域，是创业扎堆的热点，相对来说比较饱和，比如 face++、商汤、依图等等。医疗、机器人、无人车等领域还处于完成技术闭环的早期阶段，无人车在国内还看不到大规模的商业化落地。这些领域在 Video++的创始人&CEO 金证济苍看来，「都很有意义和价值，只是在消费级视频行业中没有走那么快。」

过去 4 年网络视频的崛起让 Video++嗅到了机会。腾讯、爱奇艺等视频网站的热度早已盖过了传统媒体。而各种直播 App 更是来势汹汹。2017 年，虎牙直播完成 7500 万美元 A 轮融资、花椒直播获 1 亿元 B 轮融资估值约为 50 亿元。但在行业的火热下，视频和直播行业遇到了新的瓶颈，产品、技术和模式还是十年前的样子，亟待新的突破。

未来传递信息的主要载体是视频，而视频会产生新的应用入口

「视频行业十二年的发展，其实都是「互联网视频」的发展，只把互联网作为视频媒体的载体，而视频更大的价值并没有深度挖掘。十二年的积累，行业已经做好了升级到「视频互联网」的准备，随着 AI 技术的成熟打开视频内容的黑盒子、视频互动技术的突破解决了创建场景的瓶颈，视频有能力成为继小程序之后下一代应用的超级入口，也就是视频互联网。」

金证济苍在采访中说到。公司的成立正是源于他和创始团队对未来做出的这个预判。视频正在成为互联网的信息之王。据 Syndacast 报告市场预测，2017 年视频内容已占据全球网络 74% 的流量，催生出的全球在线视频广告市场规模将会达到 190 亿美元。

视频中最早最直接的应用是互动广告，在海量的视频中需要寻找能落地的广告技术，能把观众看视频时激发的兴趣点转化为下一步的行动，这个痛点的存在让 Video++找到了技术落地的场景，视频广告。

同时，广告行业本身瓶颈也给 Video++创造了机会。在过去五六年中，视频领域的广告主要是靠前贴片广告。比如一个 10 分钟的视频中包含一个 180 秒的贴片广告，已经到头了。金证济苍解释道，「视频广告很难给你放个 300 秒的甚至 600 秒的广告，这种做法太伤害用户体验，所以这个行业已经很饱和了，不可能再按这种方式发展下去。」

一个 90 分钟的视频中，除了硬广贴片外，视频内部本身是一片商业化的蓝海，这里面有很多商业变现方式，在不打扰用户体验的同时，加入一些娱乐互动方式，可以让用户在参与中完成了一种电商或广告商业价值转化。该公司一位产品技术负责人说，他们在做的正在颠覆现有的视频商业化模式。

消费级视频 AI 到底能做什么？

Video++专注于消费级视频领域 AI 和场景应用，它通过为流量平台提供视频 AI、视频电商、视频互娱广告等系统应用, 以视觉识别和大数据为基础, 来实现广告自动投放和电商自动投放，打破传统视频商业模式。公司已经和芒果 TV、乐视、搜狐、熊猫直播、斗鱼直播等各大视频网站进行了合作，月独立 UV 量已达 2.8 亿。

在上游，Video++合作的是视频网站、卫视台、直播平台等流量平台，为这些流量平台提供技术系统进行视频电商和互娱广告的流量增值，可能将来还有游戏。

VideoAI 运营系统后台截图（客户可以选择所要分析的要素和场景，生成相关的数据报告。）

Video AI 是 Video++推出的视频自动识别+投放系统。该系统会首先识别出视频中的人物（明星）、物体（手机、电脑等）等等，然后给出一些列标签报告，客户可以查看这些明星、手机出现的点位。这些点位以坐标轴的方式呈现，横坐标是时间，纵坐标是相似度。接下来是广告投放。比如一个化妆品广告主，想投所有跟女性相关的场景，就可以选择所有跟女性相关的关键词，然后系统就会给出相应的点位，来投放广告。比如说某个视频场景中有情侣在亲吻，就有杜蕾斯的自然呈现，如果视频中出现了阳光和沙滩，就推防晒霜的广告，这种情况下观众不觉得违和。

VideoAI 运营系统后台自动识别过程截图一

选好点位后接着是选择广告类型，比如互娱应用、投票、红包、视频内电商等等。比如在爸爸去哪儿的节目中，当『阿拉蕾』出场时，会有一个「你最喜欢阿拉蕾戴那副眼镜」的投票，眼镜由品牌赞助商提供。此外，之前的植入广告是在电视剧上映之前就敲定的，这种方式有个缺点，广告主并不知道这部剧能不能火，所以广告效果也是未知性非常高。现在是在电视剧上映之后植入广告，此时电视剧的火爆程度都是已知的，广告主可以较为放心的投广告。比如人民的名义播完前几集，收视率很高，这个时候广告主就能根据收视率出价了。

Video AI 运营系统后台自动识别过程截图二

而这些视频内的广告类型还可以做灵活组合与运行，其靠的是一个特别的轻量级视频操作系统。一般的操作系统有四层，硬件层、交互层，然后到逻辑层、应用层，视频操作系统在交互层后多了一个内容层。在内容层上，首先要通过人工智能技术把视频中的人脸、物体等非结构化数据结构化，分析出人物、地点、品牌、动作等等不同的维度。接着是逻辑层，通过不同的组件，比如说直播、点播等等，组成相关的应用。最后到顶层，应用层，这一层有不同的功能和主题，以及互动应用。

Video++视频智能化解构过程系统架构截图

「没有任何技术是有真正意义上的壁垒的，技术只能给予先发优势。而先发优势可以在资源上逐渐形成后天的壁垒。」金证济苍画出一张系统架构图，底层是 AI 算法、数据，中间层是逻辑层、工程化，最上层是产品化、用户互动、和创建场景。从技术系统来说，整体架构是最难的，即把视频中的非结构化数据转化为结构化数据，并以此为基础将逻辑组件进行组合，呈现给观众最终上层的应用、广告、电商、游戏。据金证济苍介绍，这套架构在过去的三四年中，重构了多次，迭代了八个版本。此外这些架构本身非常复杂，但是为了让它能很轻量级地输出到平台的 SDK 中去，做了优化工作，让它的操作非常简易。芒果、乐视、浙江卫视、搜狐、斗鱼直播、熊猫直播、战旗直播、PPTV、风行、暴风影音、梨视频等都是 Video++的客户，这些客户对于操作系统的轻量级和稳定性要求很高。打个比方，比如某个客户的 App 已经 30Mb 了，SDK 经过反复优化要小于 1Mb，那么对于用户要下的 App 基本大小才是一样的。

除了视频广告外，电商也是其瞄准的另一个市场。目前 Video++上线了电商系统, 提供一站式视频内电商互动、无打扰加购、订单管理、商品管理、主播平台分成系统, 并且提供多样式主播自定义的直播间电商互动销售工具, 帮助主播便捷进行商品推荐和用户互动提升销量, 同时可以供货物流售后服务一站式解决, 极大降低直播平台运营成本。直播平台与主播自建电商系统的优势又在于:在直播页面和 app 中形成完整闭环, 无需跳转到淘宝京东;所有流水进平台, 和以前只拿淘宝客返点比优势明显;同时其电商故事可以为直播平台带来更大的估值空间, 丰厚的资本收益。

针对消费级视频设计的特别算法系统

Video++ 在消费级视频中主要采用的是对象识别和检测跟踪这两个技术。检测与跟踪又可以分为通用和具体两个类别。通用的检测不针对具体类别，比如任何想要关注的对象或者 logo 都可以用通用的方法。据 Video++首席算法工程师张奕博士介绍，具体的检测方法用的最多的就是人脸。

Video++的人脸识别技术中用到了几个模块。首先是对视频做一个切分，就是镜头切换与检测模块。做完镜头切换后，要对单一镜头中的人脸进行检测和跟踪，生成一个人脸的轨迹。然后对轨迹上每一帧的人脸做图像质量评估，找出评分高也就是画质好的人脸帧，再将这些帧送入人脸识别模块中，识别完之后对每一个帧上面的识别结果进行融合，得到一个整体轨迹的识别结果。

消费级视频与常见的监控视频有一些区别。消费级视频中的场景是各种各样的，不固定的，有很多场景的变化和镜头的切换以及光照的变化，这些都会对识别结果产生巨大的影响。

因此 Video++的这套人脸识别算法系统的整个构架都是针对消费级视频的特点来设计的。加入一些专门的步骤来提升它的识别效果。它有以下四个设计要点：

首先是加入了镜头切换的检测模块，这些在监控视频的识别中是不需要的，因为监控视频的镜头是固定的，不存在镜头切换。

其次在对象检测跟踪模块中，针对识别率的精度做了很多工作。消费级的视频数据量很大，要做到实时甚至超过实时的分析速度，对算法的速度要求非常高，一方面要考虑速度，另一方面也要保证精度。因此采用的是交替进行的检测跟踪。

第三，在获得对象图像轨迹之后，加入质量评估模块。加入这个模块是因为在消费级视频中会经常出现很多干扰因素，比如光照的变化，对象运动会带来运动的模糊，让每一帧的图像质量下降。一个人脸轨迹由多个帧组成，有的质量好，有些质量差，那些质量较差的帧的识别结果通常是不可信的，如果把所有帧都拿来识别，那些质量比较差的帧的识别结果会对整个的识别结果造成很大的影响。加入一个图像质量评估的模块后，可以把质量较低的图像剔除，保留质量高的图像进入识别模块，这样一来就可以提高识别结果的可信度。

最后，把挑出来的高质量图像送入识别模块，得到一个人脸轨迹上的质量比较好的帧的整体识别结果，用一个融合模块把轨迹上的所有帧的识别结果推理到整个轨迹的识别结果。

据张奕博士介绍，目前 Video++的人脸识别在图像数据集中的准确率达到了 99%。由于在视频中测试的，经过各个模块流程的后，每个模块都会对最后的准确率产生一定的影响，举个例子来说，在人脸检测中，其准确率为 90%，经过后面几个模块后，最终的识别准确率可能只有 80%。而达到 80% 以上，就能实现比较好的用户体验了。此外，与静态的图像识别不同，消费级视频识别在业界和学术界还没有建立起公共数据集，所以很难去比较不同算法的识别率高低。

我们做的东西成了将来别人要找的答案

消费级视频市场虽是一片蓝海，但蓝海也意味着没有前车可借鉴。Video++的一名技术人员「抱怨」道，「一般来说，工程师在遇到技术问题都会上 GitHub 上去找答案或参考。但是对我们来说，GitHub 上很难找到答案。」

前段时间，Video++用了某硬件公司的一项开源技术，但是由于有这种技术需求的企业几乎找不到。以至于 Video++的技术团队在这个技术上遇到很多问题都找不到答案。「最终我们把自己遇到的问题和琢磨出的解决方案告诉对方的技术负责人，反而是我们帮助提升了这一开源技术。我们做的东西成了将来别人要找的答案。」

然而，帮助提升的不只是开源技术。互联网视频行业正在发生变化，流量入口的大蛋糕被切了又切，视频场景也在被悄悄颠覆。Video++正在默默打开视频场景的新大门。从 2014 年成立起，除了初期很快就被行业淡忘的质疑让 Video++短暂地成为媒体的焦点外，这家公司一直在埋头做自己的事情。近期又慢慢出现在行业中，并于近日完成了 1.49 亿的新一轮融资。用金证济苍的话来说是「我们虽是第一个吃螃蟹的人，但是我们吃的慢，也吃的有勇气。」