AAAI 2020 | 快手:重新审视图像美学评估 & 寻找精彩片段聚焦点

2020 年 1 月 17 日 AI科技评论
作者 | 快手
编辑 | Camel

本文将简单介绍 2 篇快手发表在 AAAI 2020 上的论文,其中一篇是关于图像美学评估,另一篇则是关于如何找出精彩片段中的目标集和聚焦点

论文一:重新审视图像美学评估
Revisiting Image Aesthetic Assessment via Self-supervised Feature Learning (通过自监督特征学习重新审视图像美学评估)

论文地址:https://arxiv.org/pdf/1911.11419.pdf

图像美学质量评估是计算机视觉领域中一个重要研究课题。 近年来,研究者们提出了很多有效的方法,在美学评估问题上取得了很大进展。 这些方法基本上都依赖于大规模的、与视觉美学相关的图像标签或属性,但这些信息往往需要耗费巨大人力成本进行标注。 为了能够降低人工标注的成本,“使用自监督学习来学习具有美学表达力的视觉表征”是一个具有研究价值的方向。

在这篇论文中,我们在这个方向上提出了一种简单且有效的自监督学习方法。 我们方法的核心动机是: 若一个表征空间不能鉴别不同的图像编辑操作所带来的美学质量的变化,那么这个表征空间也不适合图像美学质量评估任务。 从这个动机出发,我们提出了两种不同的自监督学习任务: 一个用来要求模型识别出运用在输入图像上的编辑操作的类型; 另一个要求模型区分同一类操作在不同控制参数下所产生的美学质量变动的差异,以此来进一步优化视觉表征空间。 为了对比实验的需要,我们将提出的方法与现有的经典自监督学习方法(如,Colorization,Split-brain,RotNet等)进行比较。
实验结果表明: 在三个公开的美学评估数据集上(即,AVA,AADB,和CUHK-PQ),我们的方法都能取得具有竞争力的性能。 而且值得注意的是,我们的方法能够优于直接使用ImageNet或者Places数据集的标签来学习表征的方法。 此外,我们还验证了,在 AVA 数据集上,基于我们方法的模型,能够在不使用ImageNet数据集的标签的情况下,取得与最佳方法相当的性能。
推荐阅读:

论文二:找出精彩片段中的目标集和聚焦点  
Find Objects and Focus onHighlights: Mining Object Semantics for Video Highlight Detection viaGraph Neural Networks(找出精彩片段中的目标集和聚焦点: 利用图神经网络来挖掘目标语义信息的视频精彩片段检测)

论文链接:https://pan.baidu.com/s/1MHCSRXi75ED_2mr4HqcEBA

随着视频应用的迸发,用户每天都会接触到大量的视频,浏览整个视频费时又乏味。 视频精彩片段检测提取了能将视频的精华,从而很大地程度上缓解这种情况。
现有视频精彩片段检测方法存在两个问题。 首先,大多数现有方法仅专注于学习视频的整体视觉表示,但忽略了视频中物体及其交互对精彩部分的影响。 其次,当前最好的方法通常采用成对排序损失的策略,没有使用全局信息。 因此,我们提出了一个新颖的视频精彩部分框架,名为VH-GNN,构造一个对象感知图并从全局建模对象之间的关系。

为了降低计算成本,我们将视频建模成两种类型的图: 空间图,用于捕获每一帧中物体的复杂相互作用。 时间图: 获得每个帧的物体信息表示并捕获全局信息。 在此基础上,我们设计了图神经网络操作来学习视频片段的表示及它们之间的关系。
此外,我们提出了多阶段损失来优化模型,在第一阶段,我们计算了每个视频片段的得分,并使用分类损失优化;然后,根据前一阶段的得分得到难分样本对,再使用成对排序损失对模型进行优化。 我们在两个公开数据集上进行了实验,结果表明我们的方法与最好方法相比,有显著的提升。

更多AAAI 2020信息,将在「AAAI 2020 交流群」中进行,加群方式: 添加AI研习社顶会小助手(AIyanxishe2),备注「AAAI」,邀请入群。



AAAI 2020 论文集:
AAAI 2020 论文解读会 @ 望京(附PPT下载)

AAAI 2020 论文解读系列:

01. [中科院自动化所] 通过识别和翻译交互打造更优的语音翻译模型
02. [中科院自动化所] 全新视角,探究「目标检测」与「实例分割」的互惠关系
03. [北理工] 新角度看双线性池化,冗余、突发性问题本质源于哪里?
04. [复旦大学] 利用场景图针对图像序列进行故事生成
05. [腾讯 AI Lab] 2100场王者荣耀,1v1胜率99.8%,腾讯绝悟 AI 技术解读
06. [复旦大学] 多任务学习,如何设计一个更好的参数共享机制?
07. [清华大学] 话到嘴边却忘了?这个模型能帮你 | 多通道反向词典模型
08. [北航等] DualVD: 一种视觉对话新框架
09. [清华大学] 借助BabelNet构建多语言义原知识库
10. [微软亚研] 沟壑易填:端到端语音翻译中预训练和微调的衔接方法
11. [微软亚研] 时间可以是二维的吗?基于二维时间图的视频内容片段检测
12. [清华大学] 用于少次关系学习的神经网络雪球机制
13. [中科院自动化所] 通过解纠缠模型探测语义和语法的大脑表征机制
14. [中科院自动化所] 多模态基准指导的生成式多模态自动文摘
15. [南京大学] 利用多头注意力机制生成多样性翻译
16. [UCSB 王威廉组] 零样本学习,来扩充知识图谱(视频解读)
17. [上海交大] 基于图像查询的视频检索,代码已开源!
18. [奥卢大学] 基于 NAS 的 GCN 网络设计(视频解读)
19. [中科大] 智能教育系统中的神经认知诊断,从数据中学习交互函数
20. [北京大学] 图卷积中的多阶段自监督学习算法
21. [清华大学] 全新模型,对话生成更流畅、更具个性化(视频解读,附PPT)
22. [华南理工] 面向文本识别的去耦注意力网络
23. [自动化所] 基于对抗视觉特征残差的零样本学习方法
24. [计算所] 引入评估模块,提升机器翻译流畅度和忠实度(已开源)
25. [北大&上交大] 姿态辅助下的多相机协作实现主动目标追踪

    

点击“阅读原文” 前往 AAAI 2020 专题页

登录查看更多
6

相关内容

AAAI是人工智能领域的顶级国际会议,每年吸引世界各国数千名学者共同探讨人工智能发展前沿。 国际人工智能协会,前身为美国人工智能协会,目前是一个非盈利的学术研究组织,致力于推动针对智能行为本质的科学研究。
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
近期必读的8篇 AAAI 2020【图神经网络(GNN)】相关论文
专知会员服务
76+阅读 · 2020年1月15日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
ASM-Net:可解释的美学评分及图像剪裁
AI科技评论
6+阅读 · 2019年12月2日
镜头间的风格转换行人重识别
统计学习与视觉计算组
13+阅读 · 2018年8月16日
已删除
将门创投
5+阅读 · 2018年6月7日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
Arxiv
7+阅读 · 2018年12月5日
Arxiv
5+阅读 · 2018年10月11日
VIP会员
Top
微信扫码咨询专知VIP会员