腾讯音视频实验室杰出科学家刘杉:编解码标准永远都有“新一代”

2017 年 12 月 28 日 人工智能头条 刘杉

2017年12月28日,由腾讯社交网络事业群(SNG)主办TSAIC学术&工业交流盛会在腾讯滨海大厦举行,150余位来自麻省理工、斯坦福、卡耐基梅隆、清华、中科院计算机所、微软研究院等海内外知名高校、研究所的学者和研究员受邀出席。


腾讯音视频实验室杰出科学家刘杉作为主讲嘉宾出席此次大会。在会上,她分享了视频编解码领域技术介绍和编码标准变迁。她说近些年中国的数字音视频编解码技术标准工作组(AVS)做得越来越好、越来越强大,现在是完全不可忽视的一个力量。


以下是刘杉演讲全文。



非常高兴也非常荣幸来到这里跟大家做一个分享。我今天分享的主题是“视频编解码和标准化”。

    

在分享之前,我简单介绍一下我自己。跟刚才两位嘉宾的背景稍稍不一样,我是来自工业界的博士,之前在一家公司工作过,做过研究、也做过产品。如果在座有同学想了解一下博士在工业界的心路历程,欢迎大家找我分享。

   

 我们有视频编解码的传输,也包括前处理和后处理等等比较宽泛的项目,近几年我们聚焦在视频编解码的制定标准,也是今天我跟大家分析的内容。我大概在上个月加入腾讯的音视频实验室。

    

言归正传,今天分享的主题包括两个部分,一个部分是标准,另外一部分是编解码。

    

我先讲一下视频编解码的国际标准,后面花一点时间讲一下音视频实验室的成果和场景。

    

我觉得知道为什么要做一件事对任何一个项目来说都是至关重要的。之所以要做视频这件事,因为视频的数据量是非常非常大的,大到什么程度呢?举个简单的例子,有一部电影,这个电影是两个小时的电影,视频编解码背景的同学可不可以告诉大家,这个视频如果不压缩是多大?


我们大家一起来做一个快速算术,1980×1080,2小时20分钟,如果不压缩是3BT。如果我们买一个移动硬盘。你的手提电脑,如果不压缩,大概可以装两部这样不压缩的电影。如果不压缩,我们需要传输的带宽是很大的。我花了一分钟的时间来做这个数学,这件事情不是重要的,而是必要的。一件事情如果是必要的,我们就要去做。

   

我们要了解什么是视频。简单讲,视频就是一组图片,但是它不是一组单独的图片,而是有运动关系的图片,我们要抓住两个点,运动关系和图片。

    

基本上基于这两个基本点可以分两类,一类是针对图片压缩的,另外一类是运动路径、运动补偿和一些相关技术。

  

我们对色度做一个处理,这件事对博士来说完全没有什么技术含量,下面有技术含量的是transform,我们在这里面最常用的是DCT,最近的标准里面也开始引入了DST。还有其他的一些还在探讨之中。

    

右上角是Example quantization matrix,我们做压缩的看到这个会很兴奋,因为我们看到很多很多的0,看到后面的数据我们会更加兴奋,因为会有更多连续的0,这是为下一步做准备。下一步是Entropy Coding,是一种无损压缩方式,可以把这个压缩的更小。

    

刚才分享了几种针对图像压缩的技术,我们可以有一个最简单的架构图,这张图是就是最简单的架构图。


我们又回到刚才讲的什么是视频,视频就是运动关系和图片。图片方面我们已经讲了,下面我们要看一下运动关系这部分。


我们真正在做编解码的时候,不像很多领域那样做的,在主流的里面我们还是用块状的方式,所以对于运动补偿方面有很多相关技术,比如说预测单元的划分,运动矢量图本身的划分,我们真正在标准制定的时候,关于运动补偿的这一大块,通常都是划分成很多个小的技术分组来具体讨论它相关的各个运动子级、技术子级和细节。

    

通过刚才图片压缩和运动关系的分析,我们可以得到一个简单的示意图,我们可以看到它包括了压缩模块、运动补偿模块。

    

刚才给大家看的是最简单的,是我们之前的,经过这二三十年的努力和变化,现在就变得好了很多,有更多模块,也有更多技术细节。这是近期HEVC和H.265的Video Encoder,待会儿我会再详细讲这个标准。

    

花了几分钟时间,在座各位已经是视频编解码的专家了,我们可以讨论下一步了。

    

我们讨论Video Coding Standards,如果没有一个出入口或者大家都接受的密码本这样的东西,Apple、Orange就没有办法进一步的分级出来,这就是我们需要全世界人民都接受的标准。

    

接受标准不是一个人、两个人都说了算的东西,它是有一套标准组织和严格的流程。有两个历史比较久的标准阻止,其中第一个是ITU,在它下面有一个工作小组是在ITU下面负责研究视频编解码的技术和制定它的标准。第二个标准组织是ISO/IEC MIPEG。他们有一个MPEG,是在ISO、IEC下面研发视频编解码的技术,制定它的标准。还有一个公司是AOM,制定视频编解码标准。还有一个标准组织我没有写,但是我觉得也是非常重要的,AVS,是我们国内的标准阻止。近些年AVS做得越来越好、越来越强大,现在是完全不可忽视的一个力量。

    

观察从过去到现在的标准,我们可以看到,1984年ITU已经出来了第一个标准,H.120,具体长什么样子我也没有见过,因为稍微有一点早。到1990年推出了H.261,这个已经是被大家广泛使用的。1993年ISO、IEC交替的出了MPEG-1 Part2。在1995年出了H.262,这个标准是ISO、IEC两个组织共同制定的。我不知道在座多少同学用过DVD,DVD这个格式我们小时候用了很久,DVD这个格式就是用了MPEG-2 Part2,很多电视节目也是用的MPEG-2 Part2。2003年有了H.264,像HD、DVD这些格式都是用这个,很多新的节目也都是开使用H.264。又过了大概十来年,出了一个H.265/HEVC,它也是我们认为比较好的。无论是从MPGE Part2恩到H.264还是H.265,它都是翻倍了的。

    

下面花一点时间讲一下HEVC。HEVC在2007年左右开始预言,各个公司怎么有新的视频编解码的技术,到2010年1月份,这个标准组织觉得我们有希望,所以就做了一个标准。2014年全世界各个公司、学校和研究机构,全世界的工程师、科学家坐在一起做评估,出台了一个标准,又过了艰苦的努力,在2013年出台了Version1。2014年出版了Version2。2015年出版了Version3和3D。2016年又出了Version4。制定标准是一个蛮艰苦的过程,努力的工作一般来说回报都是不错的,HEVC的标准获得了第69届的艾美奖,工程师们也可以参加一下这种颁奖,蛮有意思的。参加这种活动的人只有十几个,但是这套标准积累了上千个工程师和科学家、研发人员的努力。

    

这个地方是HEVC Block Diagram,H.265比之前做了很多改进,由于今天时间有限不太会讲的很具体,因为每一个技术又是一个新的讲座。

    

做过264的同学都知道,另外一个重要的模块是运动关系,我们做了更多技术,包括更多预测单元和Coding,很多都有新的更新。265比264的时代有更多Modes以后,做了很快技术的提升。

    

Deblockin Filter,之前像263这种都是后处理的模式,264做了一个稍微革新性的,265也做了改进,我们在266会有更新的改进。

    

我们标准有一系列的数据,大家不能拿来自己比较,这个是426×240的,但是现在很少人看这样的,如果单单把HD 拿出来,这个HD sequences,我们264可以到40-45。我们做视频、视觉或者图像的同学都知道,数据是一回事,有时候科学是另外一回事。Subjective是67% class B sequences,49%for class C sequences。

   

做标准的人是永远不会停下来的,标准这个事情是一代一代可以永远做下去的。我们进行266的预言,266的预言大概在2013年、2014年很多公司就开始了,2015年10月的时候,ISO、IEC、ITU这几个相爱相杀的组织说要一起做,就一起进行预言,大概又过了两年时间的共同研究,他们说又有信心可以做一个标准,所以标准组织又发了一个通知,明年公司、学校、科研人员又要坐在一起讨论,在未来两三年时间里面我们又要努力工作,做下一代的新的标准。

    

刚才讲我们做了很多预言,我们有这么多编解码的工具。我们看到4K和2K的情况,我们已经有35%的Coding game,我们有一定的信心可以做下去。这是一个起点,不是一个终点,在未来两三年里面,我们会进一步把coding game的数据做大,把另外那个数据降低,带给大家更好的体验。

    

这大概就是我今天分享的关于视频编解码和国际标准的浮光掠影的简单介绍。

    

下面我用简单一两分钟时间介绍一下我们音视频实验室的场景,让大家看一下我们的工具和比较有意思的事情。

    

因为我们要落地场景,所以实质性要求很高,这是在工业中进行的测试,比如说降噪,一个物体可移动的很快,它可以转、颜色有改变,或者它是不是会掉下来,都有预测的。我们的TPG会进行图像压缩和解决方案。

    

还有语音的前处理,我个人不是语音专家,但是我们实验室有很多语音方面的专家,我们音视频实验室分论坛,语音背景的同学可以过来跟语音专家进行深度交流。我们还有一些比较有意思的语音方面的demo,因为这边效果不太好,demo效果在分论坛会有演示,欢迎大家来看我们的音效。

    

我们还在探索跟AI相关的课题,AI的语音降噪和分离,包括AI的语音美化。我们不仅只美化样子,还要美化声音,这是全方位的美化。还有AI辅助的音视频的质量评估等等。

    

这些是音视频实验室近期的成果和应用场景。这就是今天的分享,非常感谢大家。


刘杉个人简介:


刘杉本科毕业于清华大学电子工程系,硕士和博士毕业于美国南加州大学电机工程系,现任音视频实验室杰出科学家。刘杉加入腾讯之前,曾任华为美国多媒体实验室主任兼视频标准首席科学家和全球项目负责人;在此之前担任联发科美国视频和视觉技术开发部主任。


在联发科任职期间,组建联发科美国多媒体标准团队并帮助公司实现了在视频编解码和系统等标准领域从零到一的突破。作为主要发明人和联合发明人的50余篇技术提案被ITU-T H.265 | ISO / IEC HEVC, MPEG-DASH, OMAF, MMT 等国际标准采纳。于2013年荣获联发科最高荣誉研发金奖以表彰在标准领域对公司的贡献。


在此之前还曾担任MERL主任研究员、IBM客座研究员、索尼资深算法工程师等职。她曾多次担任标准组织技术分组与专家小组的主席和联席主席,并多次在国际顶级学术会议担任领域主席、论文评审委员或做邀请报告。发表了超过 30 篇专业期刊和会议论文,是超过 200 个美国和全球专利申请的发明人,其中许多发明已被授权并成为标准基本专利或被内置于多款通信和多媒体产品中。是ITU-T H.265 | ISO / IEC HEVC V4(定稿版本)七位主编之一。

登录查看更多
1

相关内容

Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
130+阅读 · 2020年7月10日
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
34+阅读 · 2020年3月6日
行为识别(action recognition)目前的难点在哪?
极市平台
36+阅读 · 2019年2月14日
【CAA智库】高文院士:转向跨媒体智能
中国自动化学会
22+阅读 · 2018年8月20日
张钹院士:走向真正的人工智能(附报告全文)
走向智能论坛
13+阅读 · 2018年7月1日
郑建华院士:解读人工智能与信息安全
未来产业促进会
4+阅读 · 2018年5月10日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
15+阅读 · 2019年6月25日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
Top
微信扫码咨询专知VIP会员