7 月 9 日,由 CCF 主办,雷锋网与香港中文大学承办的第二届 CCF-GAIR 全球人工智能与机器人峰会进入了第三天。在 CV + 专场首场,微软亚洲研究院资深研究员梅涛为大会带来了题为《Video Content 3C: Creation, Curation, Consumption》的分享,即视频的创造、处理和消费。
为什么要讲视频的内容,他提到如下几点。
一是视频跟图像相比更加深入,视频是 To B 的东西,但是研究视频是很大的挑战,有很大的荣誉;第二是大家看到视觉领域比如人脸、安防方面的进展,视频领域是比较崭新的东西。第三是他本人在十年前做视频方面的研究,所有人都说视频是下一个风口,今天看来这个说法也是对的。
要做视觉问题基本上分三个步骤:
第一,理解一个东西,比如说识别一个桌子,在这里要了解一些线条;第二,人为设计一些特征来描述;第三,设计一些分类器。
现在的深度学习的错误率在不断降低,image Classification 从最早的 8 层到 20 多层,到现在能达到 152 层。
视频的创作、处理和消费:
creation
这里面有一个基本概念,Video 的产生是先把 Video 切成一个一个的镜头,可以看成是一个一个断码,然后每一个镜头再编成一个故事,每几个语言可以放成一个故事。每一个镜头可以分成 Sub-shots,然后有一个数据。
curation
有了 Video 之后要做的事情是给 Video 打标签,至今为止可以打上 1000 个的静态标签,有了这些静态标签就可以设置到内容里面去。
另外还可以分析动作,给你一个 Video,能不能生成一句话来描述这个 Video,以前我们说这个 Video 是一个舞蹈,现在可以告诉你这是一个什么舞蹈。可以实时产生字母,自动评价,例如微软小冰,你上传视频给小冰,它会夸赞你。小冰还可以写诗。
也可以将 Video 进行编辑,加上滤镜,或是做风格的转换,把自然的 Video 变得非常卡通。Video 中的人物分割出来可以放到另外一个虚拟的场景里面去。你可以想象,当两个人在异地谈恋爱的时候,我们能够给他一个房间,让他们在房间里面进行聊天。
另外,也可以提供服务,让 image、Video 变得更好,这都是机器产生的效果。加上人工的处理,视频就可以变得更加时尚。
consumption
梅涛提到,做 Video 广告有两个问题需要解决:第一个问题是广告到底放在 Video 的什么位置;第二个问题是选什么样的广告,这个广告跟你插入点的信息是不是相关,使得用户接受度更加好。
他们的解决方案,将 Video 进行分解,做一系列的动作,从而符合广告商的需求或满足不同用户的需求。
最后梅涛总结到,在做科研的人看来,AI 也好,深度学习也好,落地都有很长的路要走,我们要脚踏实地的一个一个的去实现。