【科技助力冬奥】CSIG会员发展与服务工委会主任马思伟—面向8K的视频编码技术

2022 年 2 月 18 日 中国图象图形学学会CSIG

马思伟,北京大学信息科学技术学院教授,中国图象图形学学会理事、会员发展与服务工委会主任、国家杰出青年科学基金获得者。自2002年起,陆续参与组织AVS1、AVS+、AVS2一系列国家标准的制定,目前担任AVS视频组长,组织制定的AVS3标准支撑了我国第一个8K超高清频道CCTV-8K开播。曾获国家技术发明一等奖、中国电子学会科学技术奖技术发明特等奖等奖励。


2月4日,北京冬奥会盛大开幕。在冬奥的第一个比赛日,咪咕视频随着“王蒙解说”话题爆火出圈。作为冬奥官方转播商,咪咕公司不仅邀请了冰雪名将陪伴观众畅聊冬奥,同时还通过技术创新给观众带来更佳的观赛体验。


接下来将陆续跟大家聊聊咪咕公司在冬奥赛事直播中应用到的多项硬核技术:中国自主知识产权的第三代数字音视频编解码技术(AVS3)和高动态范围成像技术标准(HDR Vivid),实时AI字幕、虚拟数字人等技术。


AVS3是全球首个落地应用的面向8K及5G产业应用的音视频信源编码标准。咪咕公司联合北京大学、上海交通大学将我国全自主知识产权的AVS3编解码标准应用在咪咕视频北京冬奥赛事直播中,这是AVS3标准在移动端直播场景首次应用落地。



研发团队将AVS3精细的块划分方案、更高效准确的预测算法、适配性更高的变换模式以及效率更高的滤波算法应用到直播编码中。在相同码率下,AVS3视频质量明显优于H.265/HEVC,冰雪健将在冰雪赛场上的矫健身影每一帧都清晰可见,犹如近在眼前。除此之外,为了应对冬奥赛事直播视频画面运动速度快的特点,团队优化了移动终端多线程解码能力,大幅提升解码性能,将移动端的软解码能力从原来的25fps提升到50fps,并加入了高动态范围成像(HDR)效果,让运动画面细节更清晰、运动轨迹更丝滑,大大提升了直播观赛体验。


本文将介绍AVS3编解码的关键技术及产业应用情况。


背景


概述

随着5G技术的普及和终端设备显示能力的进一步提升,消费者对于“真实”“沉浸”的超高清音视频体验的需求越来越强烈。然而现阶段业界常用的ITU-T H.26x系列视频编码标准专利许可政策比较苛刻,AVS标准应运而生,旨在打破国际专利对我国音视频产业发展的制约。AVS工作组是由原信息产业部科技司批准成立的标准组织,目前已经运行19年,完成了三代AVS标准的制定,AVS3是全球首个推出使用的面向8K及5G产业应用的音视频信源编码标准,对加速AVS3与5G新媒体的融合发展、完成我国AVS3+5G+8K产业发展领先全球的部署意义重大。


AVS的发展历程

数字音视频编解码技术标准工作组(简称AVS工作组)由国家原信息产业部科学技术司于2002年6月批准成立。自2002年成立以来,AVS工作组制定了一系列视频编码标准,即AVS1、AVS+、AVS2和AVS3,每一代标准都会较前一代有至少50%的性能提升。


AVS1指第一代AVS标准,标准制订起始于2002年,指系列国家标准 《信息技术 先进音视频编码》,国家标准代号GB/T 20090。该标准制定起始于2002年,于2006年2月颁布,规定了多种比特率、分辨率和质量的视频压缩方法和解码过程,适用于数字电视广播、交互式存储媒体、直播卫星视频业务、多媒体邮件、分组网络的多媒体业务、实时通信业务、远程视频监控等应用。性能与同期国际标准MPEG-2相当。


AVS+是针对广电应用制定《广播电视先进音视频编解码 第1部分:视频》行业标准,标准号为GY/T 257.1-2012,简称AVS+。该标准于2012年7月获批成为广电行标,性能与同期的MPEG-4 AVC/H.264相当。


AVS2指第二代AVS标准,指系列国家标准《信息技术高效多媒体编码》,国家标准代号GB/T 33475,是面向超高清电视节目传输,引领未来五到十年数字媒体产业的发展。该标准于2016年5月被颁布为广电行标,2016年的12月30日被颁布为国家标准,压缩效率与国际标准H.265/HEVC相当,在全I帧编码以及监控场景编码中性能优于HEVC。


在产业化方面,AVS2视频标准全面应用于IPTV和广东省4K超高清,解码芯片已由华为海思、晨星(Mstar)等研发并推向市场,广播级AVS2超高清实时编码器由深圳优微视觉等公司推向市场。AVS+与AVS2在广电行业的成功应用足以证明AVS标准技术已经步入成熟。AVS产业联盟近百家成员从硬件的芯片、终端集成、系统集成,到软件的算法、视频编辑处理,产品几乎覆盖了产业链的各个环节,为AVS的发展提供了完备的支撑。


AVS3指第三代AVS标准,指系列标准《信息技术 智能媒体编码》 ,AVS3早于H.266完成,第一次实现领跑,率先发布面向8K超高清视频的新一代编码标准,实现产业领先布局。AVS3的编码性能和国际视频编码标准HEVC相比,性能提升接近30%并具备独立的知识产权。AVS3的加入,与VVC、AV1共同形成一个多元化的竞争格局。


咪咕公司从2019年加入到AVS工作组,先后提交20余项提案并被采纳为标准。其中《AVS3三维声语音生产系统规范建议及测试方案》对于沉浸式音频的采集制作规范了核心指标,不仅支持典型的应用场景,也可应用于沉浸式社交空间、游戏化互动等元宇宙场景。《CE24-雷达点云slice划分方法》提出的一种基于直方图自适应的点云slice划分方法,并行处理能力强,系统容错性强,编码效率高,可以降低点云数据的存储成本。


关键技术


AVS3编码模块采用了精细的块划分方案、更高效准确的预测算法、适配性更高的变换模式以及效率更高的滤波算法。相比于上一代视频编码标准,AVS3在块划分结构、参考帧管理、预测、变换等模块都有创新,增加了很多新的编码技术,大幅提升了编码效率。以下将简要介绍AVS3编码框架中的八大关键技术。


1. 块划分结构

AVS3中采用了基于四叉树、二叉树(BT)、扩展的四叉树(EQT)联合的递归划分结构,划分示意图如下图。最大编码单元CTU可以按四叉树、二叉树或扩展的四叉树结构逐层向下划分为编码单元(CU),树结构的节点即为最终的编码单元,编码单元是编码的基本单位。每一个编码单元内的预测和变换,分别按预测单元和变换单元为单位进行。帧间预测中,编码单元即为预测单元、变换单元。对帧内的编码单元,AVS3中新增了衍生模式树(DT)。通过衍生模式树,编码单元可水平或垂直地划分为2个或4个预测单元(PU),并对应着4个变换单元(TU)。除此之外,在帧内还新增了亮色度分离树,对帧内的亮度分量和色度分量使用独立的划分结构树。


AVS3的QT+BT+EQT联合划分结构


2. 参考帧管理

在AVS3中引入了更加灵活的RPL(Reference Picture List)的参考帧管理方法,支持 B帧参考图像。基于RPL的B帧使用两个参考帧列表,每个参考帧列表中可以有多个参考帧,同时列表中的参考帧可以来自于前向或后向,大大提升了参考结构的灵活性。基于优化的参考帧管理方法,可以实现基于多假设的前向预测,提升低延时模式下的编码效率。同时,新的RPL机制改进了不被参考的图像的标记和传输方式,使得在出现丢帧的情况下,仍然可以维护正确的解码图像缓冲区,避免出现图像缓冲区错误导致后续帧无法解码的问题。


3. 帧内预测

AVS3中沿用了AVS2中的三个特殊帧内预测模式和30个角度预测模式,新增了帧内预测滤波技术(IPF)和色度两步预测模式(TSCPM)。帧内预测滤波是对一定范围内的边界像素使用左边界或上边界参考像素对预测值进行加权滤波,有效减少了预测噪声带来的影响。色度两步预测模式是针对色度分量新增的一种预测模式,通过建立亮度块到色度块的线性预测模型,利用亮度参考边界和色度参考边界信息构建预测模型,并利用亮度块结合线性预测模型完成色度块的预测,这种跨分量的预测方法可以有效地利用分量间的相关性降低分量间的冗余,大幅提升了色度的性能,由于码率分配的影响,也带来了亮度的增益。TSCPM的采样过程如下图所示。


色度跨分量预测的预测过程


4. 帧间预测

针对帧间Skip/Direct模式,AVS3中新增了基于历史的运动矢量候选(HMVP)。HMVP是基于已编码块的信息导出运动矢量,在原有的运动矢量列表基础上进一步填充当前编码块的运动矢量候选列表。图像中结构纹理的相似性并不局限于局部区域,因此可以在更大范围内寻找相似信息。HMVP即是利用非局部相似性的原理获取更多非局部的运动矢量候选。并且只需要保存解码块的运动信息而不需要进行非局部相似性的搜索,HMVP可以在低复杂度情况下大幅提高skip/direct模式的预测性能。


除此,AVS3中新增了高级运动矢量表达技术(UMVE),从运动矢量起始点、偏移方向和偏移距离等多方面对Skip/Direct模式的运动矢量进行更精细的表达。仿射变换运动补偿预测技术(Affine)也被用于AVS3中的Skip、Direct和普通帧间模式。Affine有四参数和六参数模型,利用2个或3个控制点的运动矢量根据仿射变换模型导出当前编码块的运动矢量场。Affine运动模型相对于AVS2中的平移运动模型,可以有效提升具有缩放、旋转、透视和其他不规则运动的视频序列的性能。Affine预测的子块运动场及控制点信息如下图所示。


Affine运动补偿预测中的

子块运动场及控制点示意


在运动矢量预测精度方面,AVS3使用了自适应运动矢量精度技术(AMVR)替代了AVS2中的渐进式精度自适应方法。AMVR中有1/4,1/2,1,2,4共5种运动矢量精度候选,可自适应调整运动矢量差值精度。如下图所示,当物体实际运动矢量位置为整像素位置,使用整像素精度就可以使用较少的比特准确表示物体的运动。因此自适应的运动矢量精度可以在更好地接近真实的运动情形下合理分配编码运动矢量的比特。针对Affine技术,也增加了1/16,1/4,1共三种运动矢量精度。除此之外,AVS3中结合运动矢量精度提出了运动矢量精度扩展模式(EMVR)。EMVR对不同的运动矢量精度绑定了HMVP候选,使用对应精度下绑定的HMVP候选扩充普通帧间模式的运动矢量预测候选列表,有效提升了运动估计的准确性且仅需较少的比特代价。 


多种运动矢量精度的表示


5. 变换/量化和熵编码

AVS3相比上一代编码标准,支持更加灵活的变换。针对超高清视频的编码中出现的大编码单元,采用最大为64x64的DCT变换。AVS3也支持二次变换,对使用帧内预测方式进行编码的块,考虑到其残差的特殊统计特性,通过对左上角4x4块的系数进行二次变换,进一步减少了编码冗余,使得变换系数进一步集中。此外,AVS3提出了基于位置的变换技术PBT。PBT考虑编码单元中不同位置的预测残差特性,将一个变换单元四叉树划分为四个单元,对行变换和列变换分别使用DCT8、DST7两种变换核,进一步提升了变换编码的效率,如下图为四个子块的行列变换绑定方式,这种基于位置的绑定方式能有效地适应不同位置帧间残差的分布规律,提升了变换的性能且具有较低的复杂度。


PBT中不同位置的行列变换绑定方式


6. 环路滤波

AVS3保持了和AVS2相同的滤波技术,包括去块效应滤波、样本偏移补偿和自适应提升滤波。针对AVS2中去块效应滤波强度以及滤波像素的使用,AVS3提出了优化的滤波技术,显著提升了主观质量。


7. 并行编码结构

AVS3中提出了以片(patch)划分为单位的并行编码结构,相比AVS2大大提升了可并行性。Patch结合了Slice的独立解码特点,支持将图像按矩形区域进行划分,其中每个矩形小区域均包含整数个CTU。如下图展示了一种将包含17x13个CTU的图像的划分方式,即将图像划分成3行5列,这样划分出的矩形小区域之间可并行处理,大大提升了编解码的并行性。在AVS3中,支持恒定分片和非恒定分片。Patch划分的提出,可大大提升编解码处理的并行粒度,针对未来超高清视频应用,可充分利用多核并行计算资源,降低帧解码的处理延时,提升用户体验。


一种patch的划分方式


8. 大跨度相关信息编码

AVS3支持大跨度相关信息的编解码,即把系统层额外传输的知识图像作为参考帧,例如在监控视频中将背景帧图像作为知识图像用于参考,并配合知识图像的高效管理,可以提供更加准确的参考,进一步提升压缩效率。与此同时,由于知识图像是额外通过系统层进行传输,与AVS2相比避免了额外传输长期参考帧的代价。



测试表明AVS3和AVS2相比,编码性能平均提升23%以上,尤其是针对4K超高清视频,AVS3的编码性能和国际视频编码标准HEVC相比,性能提升接近30%,充分体现了AVS3标准的技术先进性。并且相同码率下,AVS3视频质量明显高于H.265/HEVC。


产业应用情况


AVS以标准和专利为纽带,打通了技术到产业转移的大循环。大循环的过程为:政府根据产业发展需要提出标准制定要求,科研经费以标准为导向资助目标一致的研发活动,科研成果通过‘专利池’实现快速扩散和利益回报,以企业为主体实现工程化、社会化和规模产业化,政府、企业和科研机构从产业发展中分别获得税收、利润和专利许可费的回报。这种大循环的优势在于能够促进政产学研各司其职、共同协作,从而实现重大系统集成创新。


AVS在国内率先提出“专利池”的管理方式,即把标准涉及的必要专利放入“专利池”,所有企业都可以从“专利池”得到“一站式”许可,从而大大加快技术转移、扩散速度。另外,“AVS专利池”的许可价格远低于国际上同类标准,因此得到广泛认可。“AVS专利池”价格虽低,但由于产品量大面广,专利权人仍可以获得合理回报。这种利用“专利池”分清科研和产业利益的方法,是解决科研和产业“两张皮”问题的一种机制创新。“专利池”机制得到了国家标准管理委员会和国家知识产权局的认可。


AVS在探索重大系统集成创新方面取得了宝贵经验,这套“技术产业大循环”机制激发了政、产、学、研各方面的积极性,有力推动音视频产业链的跨越发展,开启全球数字视听产业的新篇章。


在应用方面,2022年冬奥期间,我们将AVS3编解码技术标准应用在咪咕视频北京冬季奥运会赛事直播中,这也是AVS3标准在移动端直播场景首次应用及落地,填补了AVS3在移动端直播场景下的应用空白。工业和信息化部、中央宣传部、交通运输部、文化和旅游部、国家广播电视总局、中央广播电视总台等六部门联合推动的“百城千屏”项目采用AVS3进行8K大屏直播。


展望


根据工信部等印发的《超高清视频产业发展行动计划(2019-2022年)》中规划,我国将按照“4K先行、兼顾8K”的总体技术路线,在2022年实现“超高清视频产业总规模超4万亿元,4K产业生态体系基本完善,8K关键技术产品研发和产业化取得突破,形成一批具有国际竞争力的企业”。超高清视频压缩产业应用前景十分可观。


AVS作为我国全自主知识产权,打破国际专利对我国音视频产业发展的制约的音视频标准,为超高清视频产业和消费者带来更多选择。AVS3的出现,将在未来五到十年中引领8K超高清、VR视频产业的发展,并争取为相关国际标准的制定发挥关键作用。我们在移动端的直播试验,示范了AVS3在编解码标准适用的广泛性,为我国超高清视频领域提供强大助力,为超高清国产标准化生态体系构筑带来了长远积极的推动力。


【参考文献】

1.《AVS3 视频编码关键技术及应用》 张嘉琪1,雷萌2,马思伟2, 3(1 中国科学院计算技术研究所,中国 北京 100086;2 北京大学,中国 北京 100871;3 北京大学信息技术科创中心,中国 绍兴 312300)

2. http://www.avs.org.cn/aboutus.asp

来源:中移科协公众号、咪咕灯塔




中国图象图形学学会关于征集2022重大科学问题、工程技术难题和产业技术问题的通知
中国图象图形学学会关于组织开展科技成果鉴定的通知

CSIG图像图形中国行承办方征集中

登录查看更多
0

相关内容

咪咕文化科技有限公司是中国移动面向移动互联网领域设立的,负责数字内容领域产品提供、运营、服务一体化的专业子公司,是中国移动旗下音乐、视频、阅读、游戏、动漫数字内容业务板块的唯一运营实体,下设咪咕音乐、咪咕视讯、咪咕数媒、咪咕互娱、咪咕动漫5个子公司。(咪咕文化科技有限公司简称咪咕文化,咪咕文化及5个子公司合称咪咕公司)
《5G 毫米波赋能 8K 视频制作》未来移动通信论坛
专知会员服务
11+阅读 · 2022年4月15日
车联网创新生态发展报告(33页可下载)
专知会员服务
30+阅读 · 2022年2月1日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
52+阅读 · 2021年8月17日
《2021年中国AIoT产业全景图谱》白皮书,244页pdf
专知会员服务
125+阅读 · 2021年1月16日
专知会员服务
90+阅读 · 2020年8月7日
【喜讯】CSIG常务理事刘成林研究员荣获2020年度国家自然科学奖二等奖
【喜讯】CSIG监事张道强教授荣获2020年度国家自然科学奖二等奖
中国图象图形学学会CSIG
0+阅读 · 2021年11月4日
【预告】CSIG交通视频专委会“学术新星”第四场
中国图象图形学学会CSIG
1+阅读 · 2021年10月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Tikhonov Regularization of Circle-Valued Signals
Arxiv
1+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
VIP会员
相关VIP内容
《5G 毫米波赋能 8K 视频制作》未来移动通信论坛
专知会员服务
11+阅读 · 2022年4月15日
车联网创新生态发展报告(33页可下载)
专知会员服务
30+阅读 · 2022年2月1日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
52+阅读 · 2021年8月17日
《2021年中国AIoT产业全景图谱》白皮书,244页pdf
专知会员服务
125+阅读 · 2021年1月16日
专知会员服务
90+阅读 · 2020年8月7日
相关资讯
【喜讯】CSIG常务理事刘成林研究员荣获2020年度国家自然科学奖二等奖
【喜讯】CSIG监事张道强教授荣获2020年度国家自然科学奖二等奖
中国图象图形学学会CSIG
0+阅读 · 2021年11月4日
【预告】CSIG交通视频专委会“学术新星”第四场
中国图象图形学学会CSIG
1+阅读 · 2021年10月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员