今年,音视频场景异常火热,视频会议、视频社交、互动直播。而计算机视觉与这些场景有天然的契合点,能以各种形式落地在这些场景中,比如美颜、滤镜、图像分割,还有视频超分辨率。
仅以视频来讲,视频的AI模型网络深度更深、模型更大,但是处理流程却比较简单,没有像音频数据的时域和频域互转的前后处理过程。
目前在视频领域中,大家讨论最多的算法之一就是超分辨率算法。这个算法的功能就是把一张图片、视频实现高质量的放大。这个功能用普通的图片编辑或查看工具也可以实现,只是通过这些工具你得到的会是一张比较模糊的图片。但是,超分辨率算法与传统的图像放大算法的核心区别就在于,它能实现图像细节增强和去模糊。
两者会有大区别呢?我们可以看看下面这张图。左半张图是通过超分辨率算法放大后的,而右边是用图像浏览器修改尺寸放大的。传统的放大一般是使用线性插值来填充新的像素点,实际上就像是一种平滑处理,所以放大后会导致图片看起来很模糊,比如右边图中的尖毛看起来就会更模糊一点。
相较于传统的插值方式,超分辨算法就像是一种更智能的插值技术,在不同的纹理区域有不同的插值选择,而且插值的计算方式也更复杂。
这个应用下的网络模型一般是由卷积和反卷积,以及一些激活函数构成的。 卷积层用于计算特征图,反卷积用于上采样计算新的像素点。这种模型结构的好处很明显,你可以输入任意大小的图片尺寸,最终都能得到一个固定系数放大后的输出图像。
那么这项技术对于音视频领域有什么意义呢?
最重要的意义在于,可以减少数据传输量,比如我可以只传输一个 360P 的视频数据,但是在你收到视频后,数据通过超分算法放大为 720P,然后渲染显示出来。你看,传输数据量变小了,对于带宽的压力小了,但你仍能看到高清视频。
但比较遗憾的是,目前这个技术在运用到实际场景时,还是存在很多让人意想不到的问题。我们还是拿“猫尾巴”做例子,可以看下面这张图,左半部分的红框中的条纹,是经过超分辨率神经网络模型处理后,额外产生的。这也是目前很多超分网络的通病。这是由于神经网络需要抗模糊和锐化图像,但这也会导致本来应该是平滑的区域,却出现锐化的条纹。
不仅如此,正如刚刚所说的,超分辨率算法模型还要面临算法复杂度、性能与质量的挑战。因为当我们将这些算法应用到不同实际运行环境中时,也会收到硬件设备性能等因素的限制。现在很多院校、机构、技术团队也都在做相关研究。相关的专业比赛也有不少。最近就有这么一场围绕“超分辨率图像性能”的技术挑战赛正在进行中。
近期,由声网 Agora、RTC 开发者社区联合DataCastle数据城堡,正式发布了超分辨率图像性能挑战赛,旨在吸引更多研究人员参与超分辨率算法的研究,推动超分辨率算法在RTE场景应用,促进工业界与学术界的深度合作。
声网Agora成立于2013年,是全球实时互动云行业开创者,是全球领先的专业服务商。声网Agora为开发者提供简单易用、高度可定制和广泛兼容的应用编程接口API,使得开发者不需要研发或自己构建底层基础设施,只需简单调用Agora API,即可在应用内构建多种实时音视频互动场景。2020年3月单月,声网Agora通过10,000多个活跃应用程序为100多个国家的终端用户提供超过400亿分钟的实时互动。
2019年,声网Agora举行AI in RTC-超分辨率挑战赛,吸引了参赛队伍784支,参赛人数1011人,作品提交次数高达1444次。参赛者覆盖北京大学、中国科学研究院、华中科技大学、华南理工大学、西安电子科技大学等知名高校,以及网易、中兴等知名互联网企业,影响超过数十万开发者和技术人才。
2019 AI in RTC-超分辨率挑战赛
将超分辨算法用于处理实时视频流时,模型的处理表现与运算性能,是一个两难的选择。为了追求较低复杂度,可能需要牺牲图像质量;为了追求较高质量的输出,导致设备资源占用过高,产生设备发烫、视频模糊卡顿等现象。
该挑战主要考察算法模型的性能、同时兼顾图像的质量。参赛者需要对图像做2倍的超分辨率处理,算法复杂度控制在2GFLOPs之内,我们提供一个baseline模型,采用PSNR、SSIM及运行时间来综合评估算法的性能,分值高者即获胜。
一等奖1名:30000元
二等奖1名:20000元
三等奖1名:10000元
优秀奖若干:3000元
大赛权益:提交作品即可进入声网Agora招聘绿色通道。
7月28日:比赛开放报名,公布训练集
8月12日:公布测试集(LR),直至9月16日比赛结束期间,参赛者需要按照赛题要求提交参赛模型
9月16日:线上初赛结束后前排队伍提交代码,大赛组织方进行反作弊
9月19日:线上决赛
赛事报名
赛事交流
戳“阅读原文”,立刻参与大赛