5年秘密研发!谷歌3D「魔镜」实测,真人聊天不用「抱脸虫」

2022 年 10 月 14 日 新智元



  新智元报道  

编辑:Aeneas 桃子
【新智元导读】谷歌酝酿了5年的3D电话亭聊天室,将要启动实测了!

进入元宇宙,只能靠头显吗?

非也。让我们的想象力再放飞一点。

巨头谷歌给出了另一种方案:不用头显,用3D「电话亭」!

如果你平时用惯了skype或者zoom,第一次见到starline时,你一定会大吃一惊。

谷歌在去年官宣了Project Starline项目。它是一个视频通话亭,使用3D图像、高分辨率相机、定制的深度传感器和突破性的光场显示。

这为屏幕两边的通话者创造了极其逼真的体验。

时隔一年,谷歌全息视频聊天项目Project Starline将在今年晚些时候在合作伙伴办公室安装原型,完成最初测试。

裸眼3D


Starline是谷歌在元宇宙中布下的两枚棋子之一(另一枚是AR眼镜Iris)。

这个项目,谷歌已经酝酿了五年多了。

2021的I/O大会上,谷歌官宣了一个超高分辨率视频聊天室Project Starline项目。

以往,skype或zoom之类的传统视频聊天软件并不能克服感官上的距离感。和你聊天的人,是以2D平面的形式出现在你对面。而ta的声音,也明显是从手机、平板或是电脑中传出来的。

这种「音画分离」的体验,并不真实。

有没有可能彻底消除这种「距离感」?

谷歌提出了这样一个问题,「可不可以把Zoom变成一个巨大的坐式街机?」他们成功了。

耗时五年,谷歌研发出了一款黑科技——Starline3D视频通话技术。

这一技术有两大亮点:一个是真实,另一个是无需佩戴任何设备。

一个65寸的光场显示屏,外加预先布置的十几个传感器和摄像头,就构成了这样一个聊天室。

看起来,效果相当真实。

这么真实的人物外貌,是被摄像头和传感器拍下来,直接显示在对方的显示屏上的吗?

并不是。每一个摄像头和传感器的作用,是通过不同角度捕捉人像,利用深度学习进行实时压缩,把这些数据传输到对面,在显示屏上重建成3D化身。

也就是说,在这个电话亭里,你看到的是对人像的「重建」。

这种实时重建的人物影像,让彼此的感受变得无与伦比的真实。就好像和自己聊天的人,真真切切地坐在自己对面一样。

这些采集到的数据的传输,和与普通的视频会议一样,都是基于WebRTC,而谷歌独特的压缩算法使得双向实时传输3D影像成为可能。

通过视频聊天连接传输3D化身,让谷歌能够解决眼神接触的问题。在普通的视频聊天中,这一直是个麻烦。在以往,显示器上面的网络摄像头使得人在看显示器时不可能有眼神接触,而3D化身可以弥补摄像头中心和显示器中心之间的脱节,使双方有眼神接触。

谷歌正在一个强大的双Xeon工作站中处理这些数据,这个工作站有四个英伟达GPU(两个Quadro RTX 6000和两个Titan RTX)。

Starline的另一大特点是不需要佩戴任何设备。

是的,你没听错,VR头显、智能眼镜,通通不需要!

甚至,在谷歌此前发布的概念图上,摄像头和传感器都放在一张桌子里。

稍加装饰之后,你甚至会产生这样一种错觉:眼前是你的书桌,而和你聊天的人就坐在书桌对面。

根据谷歌给出的技术图,这一套设备包括:一个包含显示器、摄像头、扬声器、麦克风、照明器和计算机的显示单元,和包含红外背光并用作bench seat的背光单元。两个单元都包含向墙壁和天花板倾斜的白色LED灯条,用于产生柔和的反射照明。

显示器是一个 65 英寸、8 K、60 Hz的自动立体透镜面板,就是在它上面生成真人大小的裸眼3D视图化身。

而捕获子系统由三个同步立体的RGBD捕获pod组成:两个在显示器上方,一个在显示器下方的「中墙」(middle wall)中。

更下方的pod包括一个额外的彩色相机,用于放大拍摄对象的脸部。另外,四个单色追踪摄像头中的两个在显示器上方,其余两个一侧一个,用于捕捉眼睛、耳朵和嘴巴的高速广角图像。

渲染的方式如下图所示。

而pod就是上述提到的RGBD捕获装置。

这样渲染出的人物影响,更加逼真,栩栩如生。

Starline还配备了高级的声音系统。

这套系统使用了talker-tracked波束成形、混响消减、WebRTC传输、talker/listener-tracked虚拟音频合成、双耳串扰消除分频组合、振幅平移、空间化音频和动态波束成形等技术。

有了这些技术的加持,就仿佛通话的两个人在面对面说话一样。

去年,谷歌工程师表示,这套设备在标准办公网络环境下就可以运行。看来Starline技术是被寄望于广泛推广的。

当时,谷歌并未披露有关价格的更多细节。

很难想象这个7*7英尺、大小如同一个浴室的六位数电话亭有多大市场,但谷歌正在推进更多的测试。

不要「抱脸虫」


时至今日,这一项目进展如何?

Google Cloud Next 2022上,谷歌CEO桑达尔·皮查伊介绍了在全息视频聊天项目(Project Starline)上取得的一些进展。

谷歌称,它将在选定的合作伙伴办公室进行定期测试,其中就包括Salesforce、WeWork、T-Mobile和Hackensack Meridian Health。

WeWork 和 Salesforce表示,他们有兴趣尝试这项技术,并认为这项技术可以让人与人之间的联系变得更有意义。

到目前为止,Starline项目已经在谷歌内部进行了数千小时的测试,并在其美国办公室每天使用。

谷歌在一份声明里说:「今天,在美国各地的谷歌办事处都可以找到Starline项目的原型,员工每天都在使用该技术进行会议。」

当这一项目推向实测后,便可以了解这种技术将如何在现实世界中使用,以及它可能面临什么样的挑战。

许多人认为其非常炫酷,但也有人质疑Starline项目是否最终能够成为职场人士日常生活一部分。

面对广阔的企业会议设备市场,Starline确实有一些空间。但一些限制使得Starline难以用于严肃的会议。企业会议设备通常适用于坐在桌旁的一大群人,广泛的兼容性使得任何人都可以使用几乎任何硬件来发起会议。

然而Starline仅支持一个人进行一对一聊天,恐怕只能用于打总统电话?

近日,谷歌曾邀请一位记者对Starline进行体验测试。这位记者描述如下:

「整个过程感觉比Zoom通话要自然得多。对方的动作和我们的谈话都没有明显的延迟,所以说话就像在说话。没有任何奇怪的音频或视觉延迟。」

「我会相信我真的和某人在一起,因为我正在与全尺寸的虚拟人进行真正的眼神交流,而不是眯着眼睛看着一个小小的Zoom窗口。」

Starline之所以如此令人信服的部分原因在于,你不仅在看屏幕,而且在看屏幕前的一系列镜头,或者说透镜阵列。这个原理类似于全息卡,当你来回摇晃它们时,它可以显示不同的图像或3D效果。而Starline会通过跟踪你的眼睛,来了解将显示给你的图像指向何处。

最后,这位记者总结道:「它对于一对一的对话很有用,尤其是医生办公室或需要服务客户的地方。」

一直以来,Starline项目在谷歌的长期地位一直不为人知。

一年前,这一项目还进行了重组,谷歌将其AR/VR技术和内部研发团队Area 120重新组建为「Labs」团队。

而在上个月,谷歌还将Area 120人员数量削减了一半。

这表明,在当前的经济环境下,谷歌可能不会把这类试验视为优先事项。即便是一些谷歌内部员工也不确定Project Starline是否还存在。

即便是这样,Starline依然让人振奋,是对另一种虚拟现实的押注。

人们并不需要Avatar,仅通过真实自我就可以实现在虚拟世界中的连接。

前几天,Meta还推出了自家最贵的高端头显Quest Pro。

而谷歌没有像Meta现在所做的那样,开发利用摄像头来实现眼睛和脸部运动追踪的技术。

也没有研究如何在虚拟现实中为你的身体「加个腿」,而是致力于呈现一个真实的人。

最重要的是,不用像个「抱脸虫」一样戴在脸上,增加负担。

与此同时,随着越来越多的企业试图找到工作模式的混合未来,而Starline正好可以弥补现如今2D视频聊天的差距。

2024,携首款AR头显上市


其实,在AR头显上的布局,谷歌也不甘落后。

今年年初,两位知情人士透露,谷歌已开始加紧研发AR头显,内部代号为Project Iris,希望在2024 年上市。

并且谷歌希望在2024年之前与Iris一起发布Starline。

最新Iris头显将采用谷歌最新处理器,全自研的Tensor芯片,而且还支持在安卓系统上运行。

至于全新的操作系统,也在谷歌未来研发计划中。

这款AR设备使用外向摄像头将计算图形与现实世界融合,创造出比Snap和Magic Leap等现有AR眼镜更身临其境的混合现实体验。

由于电量的限制,谷歌会使用其数据中心去远程渲染一些图形,并通过互联网连接将它们传送到AR眼镜中。

Project Iris项目,可以说,是谷歌AR眼镜研发的一个转折点。

早在2012年,谷歌就发布了一款AR眼镜的原型机。类似于一副滑雪护目镜,而且不需要与外部电源连接。

随着一波硬件和软件的升级,2014年成功登陆美国市场,售价1500美元。然而,在2015年却因为各种负面新闻被迫下架。

紧接着,2015年,谷歌在其I/O大会上发布了一款「VR眼镜盒子」。其装置非常简单,主要由一块硬纸板与两块特殊的塑料镜片组成。

到了2017年,谷歌决定将AR眼镜的应用转向工业。

尽管急于追赶,但谷歌在打造新形式的AR硬件方面似乎落后于同行。

此后,谷歌在AR眼镜的硬件研发上明显保持沉默,并且选择专注于研发Google Lens、视觉搜索引擎和谷歌地图中的AR方向相关的软件功能。

随着2021年元宇宙概念大爆发,许多大厂纷纷在该赛道上展开布局。

其实,谷歌也在悄悄下自己的这盘棋。不论是AR头显Iris,还是全息视频通话项目Starline。

小扎曾在采访中说:「VR 的魔力在于,它可以立即让你相信你在另一个地方,并且和那里的人在一起。」他的构想是全息图,而Starline也正好英雄所见略同了。

现在,世界上最大的两家科技公司正在努力改善虚拟形象,虽然方法不同:Meta正全力以赴地提出元宇宙的概念,而Google 正在努力接管企业。

对于大多数人来说,聊天室和昂贵的混合现实显示器既不实用也不理想,但真正起飞的东西,可能会发生在两者之间的某个地方。



参考资料:
https://techcrunch.com/2022/10/13/googles-3d-video-calling-booths-project-starline-will-now-be-tested-in-the-real-world/
https://www.theverge.com/2022/10/13/23400870/google-project-starline-3d-chat-booth-impressions


往期回顾

初代95后,「闯」进大厂搞技术






登录查看更多
0

相关内容

谷歌公司(Google Inc.)成立于1998年9月4日,由拉里·佩奇和谢尔盖·布林共同创建,被公认为全球最大的搜索引擎。公司总部称为“Googleplex”,位于美国加州圣克拉拉县的芒廷维尤。业务包括互联网搜索、云计算、广告技术等,同时开发并提供大量基于互联网的产品与服务,其主要利润来自于AdWords等广告服务。
【CIKM2022教程】超图挖掘:模式、工具和生成器,259页ppt
专知会员服务
37+阅读 · 2022年11月27日
【MIT博士论文】深度学习几何表示,138页pdf
专知会员服务
67+阅读 · 2022年9月4日
【MIT-韩松】微型化机器学习与高效深度学习,127页ppt
专知会员服务
58+阅读 · 2021年10月29日
专知会员服务
39+阅读 · 2021年7月4日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
27+阅读 · 2020年1月16日
iOS、Android、PC 近期值得下载的 6 个 App
少数派
1+阅读 · 2022年2月8日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
49+阅读 · 2020年12月16日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员