NVIDIA出品AI视频通话神器，让你开会走神不被发现！

会员服务 ·

NVIDIA出品AI视频通话神器，让你开会走神不被发现！

2020 年 10 月 15 日 AI科技评论

作者 | 贝爽

“视频又卡住了”，“噪音太大，听不清你讲话”，“这画质也太有年代感了.....”

参加视频通话时，你是不是也经常会出现以上状况？

今年疫情突发，上班族都体验了一把在线云办公的快感。

但让人抓狂的是，每当谈到核心业务时，视频通话总会出现卡顿、噪音等意外状况。

最近小编发现一款AI工具，可以一键解决以上所有烦恼。

它就是NVIDIA推出的一款Cloud-AI视频流平台—— Maxine 。

据了解，它可以在视频通话中，提供高清画质、噪音消除、目光校正，以及实时转录、翻译等功能。

更重要的是，它还可以支持电脑、平板、手机等多种类型的设备。

Maxine：高清、流畅无噪音

疫情虽然已经趋于平缓，办公模式也回到了线下，但视频通话也成为了一种常用的办公方式。如NVIDIA加速计算副总裁兼总经理伊恩·巴克（Ian Buck）所说：“视频会议现在已成为了日常生活的一部分，它可帮助数百万人工作，学习，娱乐，甚至就医。”

因此，英伟达推出了这款基于AI的云原生流视频平台Maxine，用于解决当前视频通话存在的最大问题。

对于视频通话来讲，首先要解决的就是画质、噪音以及流畅度等基本问题。从NVIDIA官网了解到，Maxine采用超分辨率（Super-Resolution）技术，可以实时将低分辨率视频转换为高分辨率视频。

如图，使用后的视频像素被提升至720p。另外，AI平台也增加了消除伪影的功能，可以使得画面更清晰。

其次，Maxine平台中的AI模块可以过滤掉常见的背景噪音，如敲击键盘、主机运行的嗡嗡声、家里吸尘器的声音等。

同时，为了更好地呈现通话中的你日通，Maxine还提供了实时翻译、转录字幕的功能。

最重要的是借助其视频压缩技术，可以有效减少数据传输的带宽。据了解，Maxine的可以将其减少到H.264视频压缩标准所需带宽的十分之一，可以及大地增加视频的流畅度。

大量用户同时使用云视频服务时，会对带宽带来很大压力，因此用户经常出现掉线、卡顿等现象。

对此，NVIDIA高级产品总监安德鲁·佩奇（Andrew page）称，他们的解决方案是将带宽问题变成计算问题，因为相比于增加带宽，增加计算更为容易。

具体来说，Maxine 采用的AI视频压缩技术的核心在于它不是对整个屏幕的像素进行流式处理，而是分析通话中每个人的面部关键点，然后在另一端的视频中重新设置人脸的动画，如此一来便可以大幅降低的数据的传输量，同时还可以保证视频传输的质量。

“换脸”增强交互体验

不过，以上在NVIDIA看来只是一个视频通话工具的基本功能，而它的目标是打造更强用户体验的AI工具。

采用视频通话，而是不语音通话的一个基本诉求就是有面对面对视的交互感，但通常情况下，为了有更顺畅的交流，我们不得不紧盯着摄像头，而不是屏幕中正在对话的人。

现在Maxine可以缓解这一尴尬，它通过重建视频中的人脸图像，可以来让你看起来正在与对方进行眼神交流。

换句话说，AI通过自动生成一张虚拟人脸来自动调整面部的角度，让视频通话者看起来正自由地看着屏幕。

研究人员介绍称：“借助计算机视觉技术，我们可以从多个角度定位一个人的头部，增强面对面交流的感觉，这将有助于人们进行更自然的对话。”

同时他也介绍称，这项假脸生成技术采用的正是生成式对抗网络（generative antivative networks，GAN）。

GAN曾被AI教父Yann LeCun称作是“ 过去10年机器学习中最有趣的想法 ”，它的原理是让两个神经网络相互竞争，来生成与原始图像高度吻合的虚假图像。

风靡一时的DeepFake软件背后原理采用的均是GAN。

研究人员介绍，视频连接后，发送端会传输交互者面部周围的关键点数据，如鼻子、眼睛、嘴巴等，接受端的GAN会用这些点和原始静态图像一起来激活通话屏幕中的虚拟人脸。

另外，在面对面互动体验方面，Maxine还增加了动画头像交互和虚拟助手功能。动画头像交互允许视频通话者根据喜好选择动画虚拟头像，这些头像虽不是真实的，但可以通过交互者的声音和情绪基调自动驱动。

而虚拟助手内置了NVIDIA Jarvis对话式AI框架，具有为实时性能而优化的最新模型，可以进行语音识别、语言理解以及语音生成的虚拟助手。

比如在视频通话中，交互者可以让虚拟助手来记笔记、设置动作项目以及用类似人类的声音回答问题。

那么，这款集高清、去噪、低延时及强交互体验的视频通话工具，你要来体验一下吗？

参考链接：

https://venturebeat.com/2020/10/09/ai-weekly-nvidias-maxine-opens-the-door-to-deepfakes-and-bias-in-video-calls/

https://nvidianews.nvidia.com/news/nvidia-announces-cloud-ai-video-streaming-platform-to-better-connect-millions-working-and-studying-remotely

https://blogs.nvidia.com/blog/2020/10/05/gan-video-conferencing-maxine/

NeurIPS 2020论文接收列表已出，欢迎大家投稿让更多的人了解你们的工作~

点击阅读原文，直达NeurIPS小组~

登录查看更多

相关内容

英伟达（NVIDIA）

关注 25

NVIDIA（全称NVIDIA Corporation，NASDAQ：NVDA，发音：IPA：/ɛnvɪdɪə/，台湾官方中文名为輝達），创立于1993年4月，是一家以设计显示芯片和芯片组为主的半导体公司。NVIDIA亦会设计游戏机核心，例如Xbox和PlayStation 3。NVIDIA最出名的产品线是为个人与游戏玩家所设计的GeForce系列，为专业工作站而设计的Quadro系列，以及为服务器和高效运算而设计的Tesla系列。 NVIDIA的总部设在美国加利福尼亚州的圣克拉拉。是一家无晶圆（Fabless）IC半导体设计公司。"NVIDIA"的读音与英文"video"相似，亦与西班牙文evidia（英文"envy"）相似。现任总裁为黄仁勋。

【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

专知会员服务

19+阅读 · 2020年10月11日

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

AAAI 2020 | 南京大学×滴滴：基于弱监督学习的网约车用户体验提升

专知会员服务

15+阅读 · 2020年2月26日