首届“全国人工智能大赛”——AI+4K霸榜选手思路一窥

2019 年 11 月 21 日 AI科技评论

首届“全国人工智能大赛”初赛已经进入到白热化阶段，排行榜瞬息万变，每天都给方小鲸眼前一亮的惊喜。不少选手反映 AI+4K 赛项“好难啊”，想要“抱一个大腿”，方小鲸有幸邀请到 AI+4K 赛项初赛阶段两支已霸榜的参赛队伍成员，为大家分享一下他们的参赛思路。

话不多说，让我们一起看看他们到底是怎么想的吧！

来自南京大学的参赛选手

Q1：看到题目后第一反应是什么？ 做了哪些思考呢？

主要思考了数据怎么从 mp4 取出来增强然后又怎么变回 mp4 。

Q2：让你取得这么好的成绩主要是哪几项技术或者工程处理呢？ 有没有什么经验或者独特的技巧可以和大家分享一下呢？

总的来说视频超分框架是要优于单帧的框架的，那视频框架的话目前最好的就是 EDVR 了，尤其是这次比赛 vmaf 权重比较高，那多帧超分的 vmaf 估计是远高于单帧的，只要把 edvr 的 baseline 跑出来，分数应该不会低吧。

我们目前采用的就是 EDVR 的框架，因为硬盘读取速度实在太慢，所以 batch size 设置为了4个 patch，就算这样迭代100个 iter 也要两分钟，后面会考虑把训练速度提起来，目前我们只用了一块1080ti 训练。

Q3：至今为止，比赛给你最大的收获是？

最大收获是在实现深度学习模型的时候学会考虑资源的分配了。这次赛题数据量很大，远多于优酷那个比赛，资源分配在这样的实际环境中也非常重要。

Q4：如何理解本次数据竞赛的意义和价值？

通过比赛可以吸引人才、让很多同领域的优秀人才聚在一起交流，是一个非常难得的机会。同时比赛也可以推动这个方向的研究，让更多的人了解这个领域，推动超分辨这个技术的很多实用价值能够可以真正落地。

Q5：你觉得在 CV 领域，还有哪些你喜欢的，或者觉得未来会越来越重要的技术？ 为什么会有这样的考虑呢？

我觉得未来将会越来越依赖于三维方向的一些技术，现在好多研究都在往三维方向拓展，二维图像还是有一定的局限性的。

来自香港理工大学的参赛选手

Q1：看到题目后第一反应是什么？做了哪些思考呢？

初赛的题目是将叠加随机噪声的540p SDR 视频重建为去噪后的4K SDR 视频。看到题目第一反应就是解决这个问题有两种方案，一种是将降噪和超分结合起来做，另一种是将降噪和超分分开来做，这两种方案都是值得尝试的。

另外，拿到题目的想法就是先设立一个 Baseline 将整个流程跑通，然后再在这基础上进行改进。比如说，首先可以做一下单帧的尝试，然后再拓展到多帧。

Q2：让你取得这么好的成绩主要是哪几项技术或者工程处理呢？ 有没有什么经验或者独特的技巧可以和大家分享一下呢？

主要就是认真分析和处理数据。这个数据集不同于学术数据集，其中包含黑边和场景转换的问题，这些在训练和测试过程中都需要考虑。另外，这个数据集是540p 到4K ，对于这么大的图，在训练过程中是不适合直接读取原图，那样会造成 IO 瓶颈，所以我们采取了提前切块的策略。至于网络结构，我们目前采用的方案没有很大的创新，但是之后也想做一些尝试。

Q3：至今为止，比赛给你最大的收获是？

此次比赛的数据集在规模上比学术的数据集大上不少，在噪声模型上也要比学术数据集复杂不少，非常难得，锻炼了我处理复杂数据的能力。

Q4：如何理解本次数据竞赛的意义和价值？

人工智能在4K/高清视频处理方向的应用是一个很有前景的方向。随着5G时代的来临，越来越多的设备支持4K/高清视频播放，而以前拍摄的很多视频都达不到这个要求，如何将这些老旧视频处理成符合现有设备标准的视频将是一个有挑战的问题。而本次主办方举办的 AI+4K HDR 赛项就很好地贴合了这一主题。

Q5：你觉得在 CV 领域，还有哪些你喜欢的，或者觉得未来会越来越重要的技术？为什么会有这样的思考呢？

画质增强可以应用在智能 P 图中；分割检测可以应用在工业质检中。我觉得这些都是未来会越来越重要的技术。

以上是首届”全国人工智能大赛“（AI+4K HDR赛项）的采访实录，希望对正在参赛的小伙伴有所帮助，也欢迎还没有报名参加大赛的围观群众上场一试！

每周排行榜的前50支团队，都将获得「每周之星」奖项，奖品为腾讯视频会员权益（1个月）。