成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
小扎下血本!Meta专为元宇宙搞了个AI模型
2022 年 7 月 28 日
新智元
新智元报道
编辑:David Joey
【新智元导读】
专门为元宇宙打造的AI框架,是什么样子的?
人工智能将成为虚拟世界的支柱。
人工智能在元宇宙中可与多种相关技术结合,如计算机视觉、自然语言处理、区块链和数字双胞胎。
2月,扎克伯格在该公司的第一个虚拟活动——Inside The Lab中展示了元宇宙的样子。他说,该公司正在开发一系列新的生成式AI模型,用户只需通过描述就可以生成自己的虚拟现实化身。
扎克伯格宣布了一系列即将推出的项目,例如CAIRaoke项目,一项用于构建设备语音助手的完全端到端的神经模型,可帮助用户更自然地与语音助手进行交流。
同时,Meta正努力构建一个通用语音翻译器,可为所有语言提供直接的语音到语音翻译。
几个月后,Meta兑现了他们的承诺。
然而,Meta并不是唯一一家在游戏中拥有皮肤的科技公司。
英伟达等公司也发布了其自主研发的AI模型以提供更丰富的元宇宙体验。
开源预训练Transformer(OPT-1750亿参数)
GAN verse 3D
GANverse 3D由英伟达AI Research开发,是一种使用深度学习将2D图像处理成3D动画版本的模型,去年的ICLR和CVPR上发表的一篇研究论文中介绍了该工具,它可以用更低的成本更快地生成模拟。
该模型使用StyleGAN可自动从单个图像生成多个视图。该应用程序可以作为NVIDIA Omniverse的扩展导入,以在虚拟世界中准确地渲染3D对象。
英伟达推出的Omniverse可帮助用户在虚拟环境中创建他们最终想法的模拟。
3D模型的制作已成为构建元宇宙的关键因素。耐克和Forever21等零售商已经在元宇宙建立了他们的虚拟商店,以推动电子商务销售。
视觉声学匹配模型(AViTAR)
Meta的现实实验室团队与德克萨斯大学合作,建立了一个人工智能模型,以改善元空间的声音质量。该模型帮助匹配场景中的音频和视频。
它对音频片段进行转换,使其听起来像是在特定环境中录制的。该模型在从随机的在线视频中提取数据后使用了自我监督学习。
理想情况下,用户应该能够在他们的AR眼镜上观看他们最喜欢的记忆,并聆听实际体验中产生的确切声音。
Meta AI发布了AViTAR的开源,同时还发布了其他两个声学模型,考虑到声音是metaverse体验中经常被忽视的部分,这是非常罕见的。
视觉影响的减震(VIDA)
Meta AI发布的第二个声学模型被用来去除声学中的混响。
该模型是在一个大规模的数据集上训练出来的,该数据集有各种来自家庭三维模型的真实音频渲染。
混响不仅降低了音频的质量,使其难以理解,而且还提高了自动语音识别的准确性。
VIDA的独特之处在于,它在使用视觉线索的同时也使用音频方式进行观察。在典型的仅有音频的方法的基础上进行改进,VIDA可以增强语音,并识别语音和说话者。
视觉语音(VisualVoice)
Meta AI发布的第三个声学模型VisualVoice可以从视频中提取语音。
与VIDA一样,VisualVoice也是根据未标记的视频中的视听线索进行训练。
该模型已经自动分离了语音。
这个模型有重要的应用场景,如为听障人士制作技术,增强可穿戴AR设备的声音,从环境嘈杂的在线视频中转录语音等。
Audio2Face
去年,英伟达发布了Omniverse Audio2Face的开放测试版,以生成人工智能驱动的面部动画,以匹配任何配音。
该工具简化了为游戏和视觉效果制作动画的漫长而繁琐的过程。
该应用还允许用户以多种语言发出指令。
今年年初,英伟达发布了该工具的更新,增加了BlendShape Generation等功能,帮助用户从一个中性头像中创建一组blendhapes。此外,还增加了流媒体音频播放器的功能,允许使用文本到语音应用程序的音频数据流。
Audio2Face设置了一个3D人物模型,可以用音轨做动画。然后,音频被送入一个深度神经网络。用户还可以在后期处理中编辑角色,改变角色的表现。
参考资料:
https://analyticsindiamag.com/ai-models-built-for-the-metaverse/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
构建
关注
0
虚拟人创作更真更快!浪潮信息联手NVIDIA打造元宇宙算力方案
专知会员服务
21+阅读 · 2022年7月25日
斯坦福大学首个Transformers专题讲座视频放出,NLP、CV和RL无所不包
专知会员服务
45+阅读 · 2022年7月12日
北约防务学院:元宇宙对安全与情报的影响
专知会员服务
34+阅读 · 2022年7月2日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
28+阅读 · 2022年6月16日
【ICLR 2022】MIT论文解读:谈到人工智能,我们可以抛弃数据集吗?基于ML创建合成数据,Generative Models As A Data Source For Multiview Representation Learning
专知会员服务
39+阅读 · 2022年3月15日
【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势,这为AR/VR创造可信虚拟形象迈出了重要一步,FLAG: Flow-based 3D Avatar Generation from Sparse Observations
专知会员服务
18+阅读 · 2022年3月6日
元宇宙知识 | 如何在元宇宙中应用众多GAN模型???
专知会员服务
34+阅读 · 2022年1月29日
【斯坦福&Facebook】生成式对抗变换器,Generative Adversarial Transformers
专知会员服务
19+阅读 · 2021年4月21日
新杀器来了!Facebook AI提出DETR:用Transformers来进行端到端的目标检测
专知会员服务
50+阅读 · 2020年5月28日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Meta再放大招!VR新模型登CVPR Oral:像人一样「读」懂语音
新智元
0+阅读 · 2022年7月1日
2000多亿市值蒸发后,Meta放出多个AI大招,剑指元宇宙
AI前线
0+阅读 · 2022年2月25日
扎克伯格凌晨放大招!LeCun称世界模型将带来像人一样的AI
THU数据派
0+阅读 · 2022年2月24日
Meta祭出元宇宙「阿拉丁神灯」!LeCun称世界模型将带来像人一样的AI
新智元
0+阅读 · 2022年2月24日
元宇宙不是泡沫
AI前线
0+阅读 · 2022年2月7日
沈腾自比元宇宙DogKing,小扎变身「光头强」!Meta推出3D化身
新智元
0+阅读 · 2022年2月1日
每秒5百亿亿次!Meta祭出元宇宙巨兽,联手英伟达打造全球最强超算
新智元
0+阅读 · 2022年1月25日
元宇宙新地王2740万元刷爆纪录!虚拟炒房一周成交6.37亿,约为100套北京学区房
新智元
0+阅读 · 2021年12月26日
元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
THU数据派
2+阅读 · 2021年11月26日
脸书Meta公开了一款神奇的元宇宙硬件:一个手套
机器之心
1+阅读 · 2021年11月17日
基于内容感知编辑算子的复合型人脸图像真实感绘制
国家自然科学基金
0+阅读 · 2015年12月31日
基于语义分析的三维模型表面属性交互式编辑技术研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于非局部自回归模型的遥感图像高保真抑噪方法研究
国家自然科学基金
1+阅读 · 2013年12月31日
多类型数据驱动的智能形状建模
国家自然科学基金
2+阅读 · 2013年12月31日
基于对象分析的图像/视频内容编辑
国家自然科学基金
2+阅读 · 2012年12月31日
基于语义分析的三维模型生成技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
儿童从3D媒体中能学得更快更多吗?——三维媒体到现实世界的迁移学习机制
国家自然科学基金
0+阅读 · 2012年12月31日
4D人体活动理解中的稀疏表达、建模与学习
国家自然科学基金
1+阅读 · 2012年12月31日
白桦FT及SOC1基因的RNAi研究
国家自然科学基金
0+阅读 · 2009年12月31日
面向动漫游戏的虚拟角色自主情绪模型研究
国家自然科学基金
0+阅读 · 2009年12月31日
UnGANable: Defending Against GAN-based Face Manipulation
Arxiv
0+阅读 · 2022年10月3日
Fine-grained Contrastive Learning for Definition Generation
Arxiv
0+阅读 · 2022年10月2日
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos
Arxiv
0+阅读 · 2022年9月30日
Equivariant maps from invariant functions
Arxiv
0+阅读 · 2022年9月29日
META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for Unbounded Functions
Arxiv
0+阅读 · 2022年9月29日
Make-A-Video: Text-to-Video Generation without Text-Video Data
Arxiv
0+阅读 · 2022年9月29日
Privacy-Aware Rejection Sampling
Arxiv
0+阅读 · 2022年9月29日
Domain Generalization in Vision: A Survey
Arxiv
16+阅读 · 2021年7月18日
Embedding-based Retrieval in Facebook Search
Arxiv
12+阅读 · 2020年6月20日
Attention-based Group Recommendation
Arxiv
14+阅读 · 2018年4月18日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
构建
语音翻译
语音助手
马克·扎克伯格(Mark Zuckerberg)
英伟达(NVIDIA)
3D
相关VIP内容
虚拟人创作更真更快!浪潮信息联手NVIDIA打造元宇宙算力方案
专知会员服务
21+阅读 · 2022年7月25日
斯坦福大学首个Transformers专题讲座视频放出,NLP、CV和RL无所不包
专知会员服务
45+阅读 · 2022年7月12日
北约防务学院:元宇宙对安全与情报的影响
专知会员服务
34+阅读 · 2022年7月2日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
28+阅读 · 2022年6月16日
【ICLR 2022】MIT论文解读:谈到人工智能,我们可以抛弃数据集吗?基于ML创建合成数据,Generative Models As A Data Source For Multiview Representation Learning
专知会员服务
39+阅读 · 2022年3月15日
【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势,这为AR/VR创造可信虚拟形象迈出了重要一步,FLAG: Flow-based 3D Avatar Generation from Sparse Observations
专知会员服务
18+阅读 · 2022年3月6日
元宇宙知识 | 如何在元宇宙中应用众多GAN模型???
专知会员服务
34+阅读 · 2022年1月29日
【斯坦福&Facebook】生成式对抗变换器,Generative Adversarial Transformers
专知会员服务
19+阅读 · 2021年4月21日
新杀器来了!Facebook AI提出DETR:用Transformers来进行端到端的目标检测
专知会员服务
50+阅读 · 2020年5月28日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
热门VIP内容
开通专知VIP会员 享更多权益服务
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
【伯克利博士论文】高效深度学习推理的全栈方法
《优化联合作战准备:日本视角》最新21页
相关资讯
Meta再放大招!VR新模型登CVPR Oral:像人一样「读」懂语音
新智元
0+阅读 · 2022年7月1日
2000多亿市值蒸发后,Meta放出多个AI大招,剑指元宇宙
AI前线
0+阅读 · 2022年2月25日
扎克伯格凌晨放大招!LeCun称世界模型将带来像人一样的AI
THU数据派
0+阅读 · 2022年2月24日
Meta祭出元宇宙「阿拉丁神灯」!LeCun称世界模型将带来像人一样的AI
新智元
0+阅读 · 2022年2月24日
元宇宙不是泡沫
AI前线
0+阅读 · 2022年2月7日
沈腾自比元宇宙DogKing,小扎变身「光头强」!Meta推出3D化身
新智元
0+阅读 · 2022年2月1日
每秒5百亿亿次!Meta祭出元宇宙巨兽,联手英伟达打造全球最强超算
新智元
0+阅读 · 2022年1月25日
元宇宙新地王2740万元刷爆纪录!虚拟炒房一周成交6.37亿,约为100套北京学区房
新智元
0+阅读 · 2021年12月26日
元宇宙中可跨语种交流!Meta 发布新语音模型,支持128种语言无障碍对话
THU数据派
2+阅读 · 2021年11月26日
脸书Meta公开了一款神奇的元宇宙硬件:一个手套
机器之心
1+阅读 · 2021年11月17日
相关基金
基于内容感知编辑算子的复合型人脸图像真实感绘制
国家自然科学基金
0+阅读 · 2015年12月31日
基于语义分析的三维模型表面属性交互式编辑技术研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于非局部自回归模型的遥感图像高保真抑噪方法研究
国家自然科学基金
1+阅读 · 2013年12月31日
多类型数据驱动的智能形状建模
国家自然科学基金
2+阅读 · 2013年12月31日
基于对象分析的图像/视频内容编辑
国家自然科学基金
2+阅读 · 2012年12月31日
基于语义分析的三维模型生成技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
儿童从3D媒体中能学得更快更多吗?——三维媒体到现实世界的迁移学习机制
国家自然科学基金
0+阅读 · 2012年12月31日
4D人体活动理解中的稀疏表达、建模与学习
国家自然科学基金
1+阅读 · 2012年12月31日
白桦FT及SOC1基因的RNAi研究
国家自然科学基金
0+阅读 · 2009年12月31日
面向动漫游戏的虚拟角色自主情绪模型研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
UnGANable: Defending Against GAN-based Face Manipulation
Arxiv
0+阅读 · 2022年10月3日
Fine-grained Contrastive Learning for Definition Generation
Arxiv
0+阅读 · 2022年10月2日
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos
Arxiv
0+阅读 · 2022年9月30日
Equivariant maps from invariant functions
Arxiv
0+阅读 · 2022年9月29日
META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for Unbounded Functions
Arxiv
0+阅读 · 2022年9月29日
Make-A-Video: Text-to-Video Generation without Text-Video Data
Arxiv
0+阅读 · 2022年9月29日
Privacy-Aware Rejection Sampling
Arxiv
0+阅读 · 2022年9月29日
Domain Generalization in Vision: A Survey
Arxiv
16+阅读 · 2021年7月18日
Embedding-based Retrieval in Facebook Search
Arxiv
12+阅读 · 2020年6月20日
Attention-based Group Recommendation
Arxiv
14+阅读 · 2018年4月18日
大家都在搜
自主可控
洛克菲勒
大型语言模型
CMU博士论文
态势感知
无人艇
palantir
软件工程
数据质量
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top