StableDiffusion嵌入现实世界，能在墙上直接长出小猫咪，手机可玩

会员服务 ·

StableDiffusion嵌入现实世界，能在墙上直接长出小猫咪，手机可玩

2022 年 10 月 18 日 量子位

衡宇发自凹非寺
量子位 | 公众号 QbitAI

注意看，你面前是一堵平平无奇的墙。

现在，你可以按照自己的意愿，让它直接凭空长出点东西来。

比如……一只小猫咪？

没错，Stable Diffusion又可以搞新花活了！

这一次的重点在于，Stable Diffusion的触手扩展到现实世界——和WebAR相结合。

作者是个软件工程师小哥Stijn Spanhove，经常在推特主页发些关于WebAR或XR的视频。

目前，这条凭空长猫的视频热度还挺不错。

新世界的大门打开，有网友对AR+SD的兴趣更浓了：

还有人说：

这简直就是《反恐精英》一个酷毙了的新版本啊！

一起来看看这个有点酷的新东西吧～

SD与AR一起玩

首先，拿起手机，然后随意选择一堵墙，透过屏幕界面锁定它：

选定一块心仪区域，把它圈起来，全部涂黑。

输入提示词：

一只可可爱爱的小猫咪，涂鸦风格，数字艺术

接着点击输入框下方的Diffusion按钮，直接快进到见证奇迹的时刻。

此时，无论从哪个角度看，墙上都有一幅《喵娜丽莎》在微笑地看着你了。

这个视频，是小哥利用火到没边、门槛又低的Stable Diffusion，结合WebAR，搞出的第一个实验产品。

他在评论区和围观网友讨论了具体的工作流程。

第一步，冻结帧，把它作为生成图像的表面纹理，并让它拥有世界定位和设备跟踪相机。

第二步，向服务器发送API请求，并附上冻结帧（图像）和文本提示（Stable Diffusion）。

整个工作中，将Stable Diffusion嵌入现实世界是利用AR完成的。

关于绘制纹理，小哥则使用了Raycast（一款完全可扩展的快捷启动器）。

整个过程简单利落，引发了网友新的思考。

目前有很多有趣的NPU（嵌入式神经网络处理器）硬件，手机的共享内存也超过12GB。

在这个前提下，如果Stable Diffusion和AR一起玩这个工作能在本地运行，并且能够快到在类似的请求时间内，完成整个512x512图像生成，并在更快的AI上运行升级，一定非常有趣。

小哥自己也说，这个工作只是初尝试，一切只是Stable Diffusion和AR结合的开始。

但大多数网友觉得这已经是个很有趣的工作了，甚至想在上面“乱涂乱画”好几个小时。

AIGC打破次元壁

Stable Diffusion的风吹进现实世界，绝不是小哥一个人的想法。

具体的操作流程，基本都是在原基础上用AR加持。

就在这几天，另一位小哥用Stable Diffusion，搞了个视频透视式光学透视式眼镜。

（搁这儿叠buff呢？）

具体来说，就是小哥用Stable Diffusion做了个虚拟的AR眼镜，然后在手机屏幕上透过眼镜镜片，实现AR效果。

生成的虚拟AR眼睛不仅有电量提示，透过它看现实，能呈现西部世界、丛林、异形等多种画面风格。

此外，还有人结合Meta旗下的AR创作工具Spark AR，利用Stable Diffusion，假装自己手握了一个方块小卡片。

就是上面还能播放动画的那种。

为了达到逼真效果，作者还在卡片表面叠了一个反光图层，让卡片呈现的光泽“像玻璃杯一样”。

不过，这次的Stable Diffusion产出的图像不是实时生成，而是事先录制的，因为当下的Spark AR版本还不支持AI和ML。

“Very Nice，通过Stable Diffusion，AI和AR再一次紧密相连了。”

不管怎么说，Stable Diffusion这么火，不仅靠的是跑出来的惊人结果，触及文本生成图像以外的领域时，实力也很强劲呀～

参考链接：
[1]https://twitter.com/stspanho/status/1581707753747537920
[2]https://twitter.com/ThoseSixFaces/status/1581606079380672512
[3]https://twitter.com/sergeyglkn/status/1580167837770870784

— 完 —

「2022人工智能年度评选」火热报名中

现在，量子位「2022人工智能年度评选」已经正式启幕，评选将从企业、人物、产品/解决方案三大维度设置5类奖项。

更多关于评选标准、榜单报名欢迎扫描下方二维码～

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

增强现实（AR）

关注 0

增强现实（Augmented Reality，简称 AR），是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术，这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。

【军用元宇宙 · 译文】《人类在元宇宙中的下一个 "小步" ：在虚拟世界和物理世界之间运作》北约最新报告

专知会员服务

46+阅读 · 2022年9月16日

如何用latext画神经网络？这个PlotNeuralNet能帮到你

专知会员服务

26+阅读 · 2022年1月15日

搞AR/VR元宇宙实战书！【Manning2022新书】Unity 实战，418页pdf

专知会员服务

95+阅读 · 2022年1月10日

《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf

专知会员服务

139+阅读 · 2020年3月1日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

Stable Diffusion入侵短视频，华人导演玩得太6，小扎都来请她

量子位

1+阅读 · 2022年11月9日

你觉得现在实际体验中感知最小的技术是？

ZEALER订阅号

0+阅读 · 2022年11月8日

DALL·E这波超进化，画质艺术感双飞升，还学会了无痕P图

量子位

0+阅读 · 2022年4月7日

给PS4装上Linux，然后用Xbox手柄打任天堂游戏？网友：这场面我没见过

量子位

0+阅读 · 2022年3月1日

一个普通摄像头就让二次元老婆“活”了过来，网友：求收费

量子位

0+阅读 · 2021年11月18日

面向移动终端的草图式三维造型技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

大脑后顶叶皮层内的空间编码和多感觉整合

国家自然科学基金

1+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

图在曲面上嵌入的分类

国家自然科学基金

0+阅读 · 2011年12月31日

服务价值空间的绩效理论与测度技术研究

国家自然科学基金

0+阅读 · 2008年12月31日

Tensor Decomposition of Large-scale Clinical EEGs Reveals Interpretable Patterns of Brain Physiology

Arxiv

0+阅读 · 2022年11月24日

How "open" are the conversations with open-domain chatbots? A proposal for Speech Event based evaluation

Arxiv

0+阅读 · 2022年11月24日

Tetrahedral Diffusion Models for 3D Shape Generation

Arxiv

0+阅读 · 2022年11月23日

Neural Superstatistics: A Bayesian Method for Estimating Dynamic Models of Cognition

Arxiv

0+阅读 · 2022年11月23日

Optimizing Reusable Knowledge for Continual Learning via Metalearning

Arxiv

15+阅读 · 2021年6月9日

VIP会员