【AAAI2022-西电】时空辅助网络的转码视频恢复

2021 年 12 月 25 日 专知

近日,人工智能领域顶级会议AAAI (AAAI Conference on Artificial Intelligence)2022年度的论文揭晓,来自西安电子科技大学通信工程学院的何刚老师团队所发表的题为“Transcoded Video Restoration by Temporal Spatial Auxiliary Network”的最新针对视频转码的修复处理算法研究成果被成功收录。何刚老师是通信工程学院图像传输与处理研究所(图像所)骨干成员,图像所隶属于ISN国家重点实验室,负责人为李云松教授。AAAI Conference on Artificial Intelligence是美国人工智能协会主办的年会,被列为人工智能领域的CCF A类顶级会议。今年会议共收到9251篇投稿,创下AAAI投稿量的历史新高,其中9020篇投稿进入了评审环节。最终经过大会讨论决定共接收1349篇论文,录取率为15.0%,创下历史新低。

图1 AAAI近6年录取率变化图

视频技术在我们生产生活中的作用日益凸显,特别是在新冠疫情来临之后,视频服务在助力复工复产方面发挥了重要的作用,短视频、云直播、远程教育等新模式新业态快速涌现。据统计,流媒体视频在全网数据流量占比已超过70%。同时,围绕流媒体视频展开的一系列工作,如视频压缩编解码、虚拟现实、增强现实以及元宇宙等,是当前研究热点。

结合深度学习技术,何刚老师团队首次针对实际工程应用中视频经历多次压缩编码(即转码)而非独立压缩编码,开创性地开发相应的视频修复去伪影增强算法,并取得了显著成果。图2为转码视频压缩去伪影增强的一个应用场景示例,日常生活观看的视频大多数都在录制与传输过程中经历了多次编码压缩。通常情况下使用移动手机录制的视频通过互联网分享给其他人时视频至少会经过两次压缩。首先,在手机端录制的视频会直接经由手机内置的编解码器完成硬件编码(也称初始编码),此时的视频码率较高,视频内容清晰,压缩伪影不明显。然后用户将其上传到如YouTube、快手、抖音等视频服务提供商时,这些厂商将对视频进行不同码率的转码以适应不同的应用场景,而后分发给其他用户。最终在其他用户端显示播放的该视频是经过编码和转码后的版本,此时的视频往往失真明显,压缩伪影明显,尤其是在带宽有限的情况下更加突出,会不同程度地影响用户的观看体验。

图2转码视频压缩去伪影修复的应用场景示例

(a)工作流程比较图 (b)主客观质量比较示例图

图3论文方案与先前单次编码压缩去伪影方法在转码压缩去伪影任务上的比较

考率到转码压缩视频中存在的伪影是多次编码失真的叠加,先前的处理方案主要针对单次压缩损伤的修复,如图3所示,当其应用于转码视频上效果大打折扣。为此,结合实际应用场景,该论文将深度学习与转码视频去伪影任务相结合,利用转码视频特性,将初始编码信息作为中间辅助监督标签,设计辅助监督和全局监督损失函数引导网络训练。同时,该论文结合视频的时空相关特性设计了包括时域可变形对齐模块(TDAM)、金字塔空域融合模块(PSFM)等在内的卷积神经网络架构,并协同辅助监督(ASAM)和全局监督(GSAM)训练以更好地提升转码视频的画面质量,对应网络架构图见图4。因此,通过论文方法,可以在不增加视频码率的情况下大幅提高视频图像质量。表1以图像客观评价指标PSNR/SSIM增益作为客观评价指标衡量该论文方法较先前方法而言的增强性能提升程度。从

图4时空辅助转码压缩去伪影修复网络架构图

表中可以看出,该论文提出的方法在测试视频序列的平均PSNR增益为0.782dB,相比于先前方法STDF而言提升增幅达52.4%。同时,图5为与先前单次编码修复增强方法的主观效果对比图,可以看出该论文方案主观质量大幅提升,如转码损伤的斑马线被修复还原,行人周围的伪影得到大面积移除,篮球的边缘纹理修复重现等。因此,本论文无论从客观指标和主观效果上都极大程度地修复提升了视频转码压缩后的视觉质量。

表1 论文方案与先前方法在转码去伪影修复任务上的PSNR/SSIM增益指标比较

图5论文方案与先前方法在转码去伪影修复任务上的修复效果对比图

何刚老师及其科研团队一直致力于基于深度学习的图像视频增强处理及编解码压缩等学术研究技术,至今已发表相关论文50多篇和相关专利。同时,其团队和工业界应用合作紧密,在2019年合作完成的人工智能AI图像修复合作技术(去噪、去雾、去模糊、对比度增强)获得CCTV13《朝日新闻》采访报道,其承担超高清编解码和视频处理系统应用国家海深探测项目获2020年《陕西新闻》采访报道。

论文主要作者:

何刚,副教授,现工作于西安电子科技大学通信工程学院图像传输与处理研究所(图像所)。图像所是ISN国家重点实验室成员单位,负责人为李云松教授。本科毕业于西安交通大学,博士毕业于日本早稻田大学,师从后藤敏教授(IEEE Life Fellow),研究方向是基于人工智能高效视频编码算法,基于深度学习卷积网络和对抗技术图像视频增强处理等研究,至今已发表SCI论文及国际会议50余篇。

徐莉,博士研究生,西安电子科技大学通信工程学院图像传输与处理研究所(图像所)成员。图像所是ISN国家重点实验室成员单位,负责人为李云松教授。本科毕业于重庆大学,目前在西安电子科技大学攻读博士学位,博士期间的指导老师为雷杰老师和何刚老师,研究方向为深度学习在图像视频压缩与增强领域上的应用,目前已在AAAI、T-CSVT等国际顶级会议期刊发表多篇论文。

相关链接:

会议链接:https://aaai.org/Conferences/AAAI-22/

论文链接:https://www.zhuanzhi.ai/paper/fc517244b6511bf534d92cc7393665ec


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“TVRT” 就可以获取【AAAI2022-西电】时空辅助网络的转码视频恢复》专知下载链接

商务、投稿、技术等合作:请加微信助手:Quan_ABT, 或发邮件到bd@zhuanzhi.ai

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取7万+AI主题干货知识资料!

点击“ 阅读原文 ”,了解使用 专知
登录查看更多
0

相关内容

AAAI是人工智能领域的顶级国际会议,每年吸引世界各国数千名学者共同探讨人工智能发展前沿。 国际人工智能协会,前身为美国人工智能协会,目前是一个非盈利的学术研究组织,致力于推动针对智能行为本质的科学研究。
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
37+阅读 · 2022年1月3日
【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
20+阅读 · 2021年12月19日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
19+阅读 · 2021年11月28日
专知会员服务
13+阅读 · 2021年9月13日
专知会员服务
15+阅读 · 2021年5月18日
专知会员服务
40+阅读 · 2021年4月5日
【AAAI2021】Graph Diffusion Network提升交通流量预测精度
专知会员服务
54+阅读 · 2021年1月21日
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
25+阅读 · 2020年12月27日
【NLPCC教程】图神经网络与网络嵌入前沿进展,142页ppt
专知会员服务
72+阅读 · 2020年10月19日
【动态】中国图象图形学学会八届六次理事长会议在线召开
中国图象图形学学会CSIG
0+阅读 · 2022年3月28日
Zak最新《神经信息传递》,附Slides与视频
专知
0+阅读 · 2022年2月15日
你有订阅视频平台会员服务吗?
ZEALER订阅号
0+阅读 · 2021年12月18日
今年你印象最深刻的一款手机是?
ZEALER订阅号
0+阅读 · 2021年12月7日
iPhone 13全系列机型不支持中国电信2G/3G网络
威锋网
0+阅读 · 2021年11月23日
【WWW2021】自监督多通道超图卷积网络
专知
3+阅读 · 2021年4月5日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
A Comprehensive Survey on Graph Neural Networks
Arxiv
21+阅读 · 2019年1月3日
VIP会员
相关VIP内容
WSDM 2022 | 基于图神经网络的协同过滤设计空间研究
专知会员服务
37+阅读 · 2022年1月3日
【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
20+阅读 · 2021年12月19日
[ICCV 2021] 联合视觉语义推理:文本识别的多级解码器
专知会员服务
19+阅读 · 2021年11月28日
专知会员服务
13+阅读 · 2021年9月13日
专知会员服务
15+阅读 · 2021年5月18日
专知会员服务
40+阅读 · 2021年4月5日
【AAAI2021】Graph Diffusion Network提升交通流量预测精度
专知会员服务
54+阅读 · 2021年1月21日
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
25+阅读 · 2020年12月27日
【NLPCC教程】图神经网络与网络嵌入前沿进展,142页ppt
专知会员服务
72+阅读 · 2020年10月19日
相关资讯
【动态】中国图象图形学学会八届六次理事长会议在线召开
中国图象图形学学会CSIG
0+阅读 · 2022年3月28日
Zak最新《神经信息传递》,附Slides与视频
专知
0+阅读 · 2022年2月15日
你有订阅视频平台会员服务吗?
ZEALER订阅号
0+阅读 · 2021年12月18日
今年你印象最深刻的一款手机是?
ZEALER订阅号
0+阅读 · 2021年12月7日
iPhone 13全系列机型不支持中国电信2G/3G网络
威锋网
0+阅读 · 2021年11月23日
【WWW2021】自监督多通道超图卷积网络
专知
3+阅读 · 2021年4月5日
视频大脑:视频内容理解的技术与应用
AI前线
13+阅读 · 2019年4月18日
视频行为识别年度进展
深度学习大讲堂
34+阅读 · 2017年6月12日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员