加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
前几天武汉军运会上我国选手潘玉程破500米障碍跑世界记录,下面这段小视频在朋友圈疯传:
就像一颗子弹,嗖嗖嗖~
随着抖音、快手等短视频应用的兴起,像这种引入入胜的高质量小视频内容成为各平台的巨大需求。
机器能在体育赛事、娱乐影视等视频中自动截取这样的精彩小视频吗?前几天百度公布的一篇 ICCV 2019 的论文中提出了这个新CV问题,并且构建了业内首个该方向数据集TruNet。
说实话,这是个很有前景的方向,搞好了CV研究人员靠算法能成为带货千万的抖音大V😄。
这不同于传统的视频精彩片段检测和视频摘要问题,在这个问题中,最重要的是保持视频情节完整,百度在这篇文章中称这个问题为story-preserving long video truncation(也许可以翻译为故事完整的长视频截断),该问题需要一种算法来自动将长视频截断为多个简短且吸引人的子视频,每个子视频都包含不间断的故事。
百度的研究人员收集并标注了一个新的大型视频截断数据集,名为TruNet,其中包含1470个长视频,每个视频平均包含11个短故事。
上图为其中一个视频标注的例子,(a)展示了该视频共含有9首歌和舞蹈表演,(b)为第三段小视频的时间轴放大展示。
TruNet与大型视频数据集ActivityNet 1.3的比较:
另外,作者利用TruNet数据集,进一步开发和训练了一种用于视频截断的神经架构体系,该体系结构包含两个部分:边界感知网络(BAN)和Fast-Forward LSTM(FF-LSTM)。
BAN通过同时考虑帧级别的吸引力大小和是否为边界来生成高质量的候选时间片段。FF-LSTM则用于捕获一系列帧之间的高阶依存关系来确定候选时间片段是否是连贯且完整的故事。
作者实验表明,该文提出的算法在定量评价和用户调查方面都优于现有的用于情节完整长视频截断问题的方法。
定量研究比较:
用户调研投票结果:
这个问题蛮有意思的,而且也很有实用价值,欢迎大家Follow!
论文地址:
https://arxiv.org/abs/1910.05899v1
数据集地址:
https://ai.baidu.com/broad/download
(可惜的是,在官网上目前还没看到下载,可能会在ICCV 2019开会期间公开)
-End-
*延伸阅读
CV细分方向交流群
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群(已经添加小助手的好友直接私信),更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台
觉得有用麻烦给个在看啦~