No-reference (NR) perceptual video quality assessment (VQA) is a complex, unsolved, and important problem to social and streaming media applications. Efficient and accurate video quality predictors are needed to monitor and guide the processing of billions of shared, often imperfect, user-generated content (UGC). Unfortunately, current NR models are limited in their prediction capabilities on real-world, "in-the-wild" UGC video data. To advance progress on this problem, we created the largest (by far) subjective video quality dataset, containing 39, 000 realworld distorted videos and 117, 000 space-time localized video patches ('v-patches'), and 5.5M human perceptual quality annotations. Using this, we created two unique NR-VQA models: (a) a local-to-global region-based NR VQA architecture (called PVQ) that learns to predict global video quality and achieves state-of-the-art performance on 3 UGC datasets, and (b) a first-of-a-kind space-time video quality mapping engine (called PVQ Mapper) that helps localize and visualize perceptual distortions in space and time. We will make the new database and prediction models available immediately following the review process.


翻译:没有参照(NR)的视频质量概念评估(VQA)对于社交和流媒体应用来说是一个复杂、尚未解决和重要的问题。需要高效和准确的视频质量预测器来监测和指导数十亿共享的、往往是不完善的用户生成的内容(UGC ) 的处理。 不幸的是,目前的NR模型在现实世界的预测能力方面是有限的,“世间”UGC视频数据。为了推进这一问题的进展,我们创建了最大的(迄今为止)主观视频质量数据集,其中包括39 000个现实世界扭曲视频和117 000个空间时地本地视频补丁(v-patches)和5.5M 人类感知质量说明。我们为此创建了两种独特的NR-VQA模型:(a) 以本地到全球为基地的NRVQA模型(称为PVQQ),该模型学会预测全球视频质量,并在3个UGC数据集上实现最新水平的视频质量表现,以及(b) 首次在视频质量图像模型和图像图像模型上进行实时的实时分析。

1
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
小草雷V1工具包
黑白之道
14+阅读 · 2019年2月3日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
24+阅读 · 2020年3月11日
Arxiv
7+阅读 · 2019年4月8日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
小草雷V1工具包
黑白之道
14+阅读 · 2019年2月3日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
相关论文
Top
微信扫码咨询专知VIP会员