NVIDIA出品AI视频通话神器,让你开会走神不被发现!

2020 年 10 月 15 日 AI科技评论
作者 | 贝爽
“视频又卡住了”,“噪音太大,听不清你讲话”,“这画质也太有年代感了.....”
参加视频通话时,你是不是也经常会出现以上状况?
今年疫情突发,上班族都体验了一把在线云办公的快感。
但让人抓狂的是,每当谈到核心业务时,视频通话总会出现卡顿、噪音等意外状况。
最近小编发现一款AI工具,可以一键解决以上所有烦恼。
它就是NVIDIA推出的一款Cloud-AI视频流平台—— Maxine
据了解,它可以在视频通话中, 提供高清画质、噪音消除、目光校正,以及实时转录、翻译等功能。
更重要的是,它还可以支持电脑、平板、手机等多种类型的设备。
1

Maxine:高清、流畅无噪音

疫情虽然已经趋于平缓,办公模式也回到了线下,但视频通话也成为了一种常用的办公方式。如NVIDIA加速计算副总裁兼总经理伊恩·巴克(Ian Buck)所说:“视频会议现在已成为了日常生活的一部分,它可帮助数百万人工作,学习,娱乐,甚至就医。”
因此,英伟达推出了这款基于AI的云原生流视频平台Maxine,用于解决当前视频通话存在的最大问题。
对于视频通话来讲,首先要解决的就是画质、噪音以及流畅度等基本问题。从NVIDIA官网了解到,Maxine采用超分辨率(Super-Resolution)技术,可以实时将低分辨率视频转换为高分辨率视频。
如图,使用后的视频像素被提升至720p。另外,AI平台也增加了消除伪影的功能,可以使得画面更清晰。
其次,Maxine平台中的AI模块可以过滤掉常见的背景噪音,如敲击键盘、主机运行的嗡嗡声、家里吸尘器的声音等。
同时,为了更好地呈现通话中的你日通,Maxine还提供了实时翻译、转录字幕的功能。
最重要的是借助其视频压缩技术,可以有效减少数据传输的带宽。据了解,Maxine的可以将其减少到H.264视频压缩标准所需带宽的十分之一,可以及大地增加视频的流畅度。
大量用户同时使用云视频服务时,会对带宽带来很大压力,因此用户经常出现掉线、卡顿等现象。
对此,NVIDIA高级产品总监安德鲁·佩奇(Andrew page)称,他们的解决方案是将带宽问题变成计算问题,因为相比于增加带宽,增加计算更为容易。
具体来说,Maxine 采用的AI视频压缩技术的核心在于它不是对整个屏幕的像素进行流式处理,而是分析通话中每个人的面部关键点,然后在另一端的视频中重新设置人脸的动画,如此一来便可以大幅降低的数据的传输量,同时还可以保证视频传输的质量。

2

“换脸”增强交互体验

不过,以上在NVIDIA看来只是一个视频通话工具的基本功能,而它的目标是打造更强用户体验的AI工具。
采用视频通话,而是不语音通话的一个基本诉求就是有面对面对视的交互感,但通常情况下,为了有更顺畅的交流,我们不得不紧盯着摄像头,而不是屏幕中正在对话的人。
现在Maxine可以缓解这一尴尬,它通过重建视频中的人脸图像, 可以来让你看起来正在与对方进行眼神交流。
换句话说,AI通过自动生成一张虚拟人脸来自动调整面部的角度, 让视频通话者看起来正自由地看着屏幕。
研究人员介绍称:“借助计算机视觉技术,我们可以从多个角度定位一个人的头部,增强面对面交流的感觉,这将有助于人们进行更自然的对话。”
同时他也介绍称,这项假脸生成技术采用的正是生成式对抗网络(generative antivative networks,GAN)。
GAN曾被AI教父Yann LeCun称作是“ 过去10年机器学习中最有趣的想法 ”,它的原理是让两个神经网络相互竞争,来生成与原始图像高度吻合的虚假图像。
风靡一时的DeepFake软件背后原理采用的均是GAN。     
研究人员介绍,视频连接后,发送端会传输交互者面部周围的关键点数据,如鼻子、眼睛、嘴巴等,接受端的GAN会用这些点和原始静态图像一起来激活通话屏幕中的虚拟人脸。
另外,在面对面互动体验方面,Maxine还增加了动画头像交互和虚拟助手功能。动画头像交互允许视频通话者根据喜好选择动画虚拟头像 ,这些头像虽不是真实的,但可以通过交互者的声音和情绪基调自动驱动。
而虚拟助手内置了NVIDIA Jarvis对话式AI框架,具有为实时性能而优化的最新模型,可以进行语音识别、语言理解以及语音生成的虚拟助手。
比如在视频通话中,交互者可以让虚拟助手来记笔记、设置动作项目以及用类似人类的声音回答问题。
那么,这款集高清、去噪、低延时及强交互体验的视频通话工具,你要来体验一下吗?
参考链接:
https://venturebeat.com/2020/10/09/ai-weekly-nvidias-maxine-opens-the-door-to-deepfakes-and-bias-in-video-calls/
https://nvidianews.nvidia.com/news/nvidia-announces-cloud-ai-video-streaming-platform-to-better-connect-millions-working-and-studying-remotely
https://blogs.nvidia.com/blog/2020/10/05/gan-video-conferencing-maxine/  


NeurIPS 2020论文接收列表已出,欢迎大家投稿让更多的人了解你们的工作~

点击阅读原文,直达NeurIPS小组~

登录查看更多
0

相关内容

NVIDIA(全称NVIDIA Corporation,NASDAQ:NVDA,发音:IPA:/ɛnvɪdɪə/,台湾官方中文名为輝達),创立于1993年4月,是一家以设计显示芯片和芯片组为主的半导体公司。NVIDIA亦会设计游戏机核心,例如Xbox和PlayStation 3。NVIDIA最出名的产品线是为个人与游戏玩家所设计的GeForce系列,为专业工作站而设计的Quadro系列,以及为服务器和高效运算而设计的Tesla系列。 NVIDIA的总部设在美国加利福尼亚州的圣克拉拉。是一家无晶圆(Fabless)IC半导体设计公司。"NVIDIA"的读音与英文"video"相似,亦与西班牙文evidia(英文"envy")相似。现任总裁为黄仁勋。
专知会员服务
10+阅读 · 2020年9月1日
一图搞定ML!2020版机器学习技术路线图,35页ppt
专知会员服务
93+阅读 · 2020年7月28日
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
3 行代码 5 秒抠图的 AI 神器,根本无需 PS
大数据技术
20+阅读 · 2019年7月24日
已删除
将门创投
3+阅读 · 2018年10月11日
无需干净样本,英伟达AI去马赛克
AR酱
10+阅读 · 2018年7月13日
ELK + Filebeat 搭建日志系统
架构文摘
7+阅读 · 2017年12月14日
Arxiv
0+阅读 · 2020年11月30日
Arxiv
0+阅读 · 2020年11月27日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
7+阅读 · 2018年9月27日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
VIP会员
相关资讯
3 行代码 5 秒抠图的 AI 神器,根本无需 PS
大数据技术
20+阅读 · 2019年7月24日
已删除
将门创投
3+阅读 · 2018年10月11日
无需干净样本,英伟达AI去马赛克
AR酱
10+阅读 · 2018年7月13日
ELK + Filebeat 搭建日志系统
架构文摘
7+阅读 · 2017年12月14日
相关论文
Arxiv
0+阅读 · 2020年11月30日
Arxiv
0+阅读 · 2020年11月27日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
7+阅读 · 2018年9月27日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Top
微信扫码咨询专知VIP会员