《火车到站》是电影史上最著名的电影之一。该片由法国导演奥古斯特和路易·卢米埃拍摄,在当时达到了前所未有的质量水平。
今天,卢米埃尔兄弟的杰作看起来充满颗粒状,浑浊,破旧。但一个名叫 Denis Shiryaev 的大神利用神经网络技术,将这部经典电影提升到 21 世纪的 4K 高清水平。
这个升级版的视频让以前的世界变得栩栩如生,火车的细节、衣着和乘客面部的模糊细节也清晰可见。
1895 年的电影《火车进站》
1895 年拍摄的这部老电影采用了 35mm 格式胶片制作,由于当时的放映机由手摇进行驱动,其原始帧率大概在 16 帧到 24 帧之间。而且当时的胶片技术尚未成熟,我们可以看到画面景物都是比较模糊的。但经过了神经网络的画面分辨率增强和插帧之后,这部老电影获得了 4k~60fps 的画质。
将老电影秒变 4K 高清,Shiryaev 又是怎么做到的呢?
实际上,他使用了 Gigapixel AI 的商业图像编辑软件,该软件内嵌专有的插值算法,可以将图像放大 600%,在分析图像的同时还能识别图像的细节和结构。
我们知道图像是由一格一格的像素组成的,单位英寸中所包含的像素点数越高,自然画面会更加清晰。
普通高清是 1920×1080,总像素为 2073600,而 4K 高清是 3840×2160,总像素为 8294400,因此只是把普通图像提升到 4K 高清,就需要额外补充 600 万个像素。
因此这里就需要插值算法,它基于周边的像素来计算新像素,通常的方法有最近邻、双线性插值、双三次插值。最近邻方法是利用与它们的最近邻相同的颜色填充空白像素,它虽然简单而有效,但会产生锯齿状、明显像素化的图像。双线性插值需要更多的处理能力,但它可以根据最近的两个像素来分析空白像素,并在它们之间产生梯度,从而使图像更加清晰。双三次插值从其 16 个最近邻像素进行采样。与原始图像相比,通过结合双线性和双三次插值的结果,图像可以准确着色,但仍然模糊。
而这一过程,由 Gigapixel AI 利用深度卷积神经网络来完成。正如它的产品页面介绍的那样,它运用了神经网络,对成千上万对照片进行分析,来了解图片细节是如何丢失的,算法会根据所学的知识在新图像中填充信息,有效为照片添加新细节。
一般来说,神经网络生成细节是人像生成网站和类似生成对抗网络所使用的技术。当向神经网络显示一张人脸的低分辨率图像时,它会识别出这是一张脸,并向图像中的眼睛、鼻子和嘴巴填充正确的细节,让图片更加清晰。正因为如此,原始胶片才会充满栩栩如生的细节。
视频插帧
解决了像素低的问题,还需要解决视频卡顿问题,因此 Shiryaev 还使用了 DAIN(Depth-Aware Video Frame Interpolation)这个软件,它可以对电影中的帧进行预测,然后插入视频中。
为了让老电影放映效果达到与 4K 同样的效果,Shiryaev 将足够多的图像添加到电影中,而 DAIN 每秒会自动生成 36 个图像添加到电影中。
为电影上色
受 Shiryaev 视频的启发,有网友将他的视频中的一帧放到安卓的彩色图像应用程序中,来自动给图像着色。同样是利用神经网络,从一堆彩色照片开始,将它们转换成黑白照片,然后训练一个神经网络来重建颜色原稿。
可以看到树木是绿色的,砂石是棕色的,旁边一路人的外套是黑色的。
AI 助力视频修复
去年,英伟达发布了一个叫 Super SloMo 的神经网络,它能从普通的视频“脑补”出高帧率的画面,从 30fps 插帧到 240fps,即使放慢 8 倍也不会感到卡顿。
这个项目使用深度神经网络,对视频中缺失的帧进行预测并补全,从而生成连续慢速回放的效果。除此外,还能排除原视频中被遮挡的像素,从而避免在生成的内插中间帧里产生模糊的伪象。
该论文的第一作者是本硕毕业于西安交通大学、现在在马萨诸塞大学阿默斯特分校读博四的 Huaizu Jiang。第二作者 Deqing Sun 是英伟达学习与感知研究小组的高级研究员。
让我们感受下视频慢速回放的效果
近期精彩集锦(点击蓝色字体跳转阅读):
公众号对话框回复“2020科技趋势”,获取《2020科技趋势报告》完整版PDF!
公众号对话框回复“AI女神”,获取《人工智能全球最具影响力女性学者报告》完整版!
公众号对话框回复“AI10”,获取《浅谈人工智能下一个十年》主题演讲PPT!
公众号对话框回复“GNN”,获取《图神经网络及认知推理》主题演讲PPT!
公众号对话框回复“AI指数”,获取《2019人工智能指数报告》完整版PDF!
公众号对话框回复“3D视觉”,获取《3D视觉技术白皮书》完整版PDF!
点击阅读原文,查看更多精彩!