每年的 AI Day 上,特斯拉都会展示自己在人工智能领域取得的新突破,吸引数百万人的关注。去年的很多雄心勃勃的项目如今已经付诸实践了。
「从治理的角度来看,我认为实际上特斯拉是一个很好的实体:我们是家上市公司,这意味着公众控制着特斯拉。我认为这实际上是一件好事。所以如果我发疯了,你们可以解雇我——这很重要。也许我没疯呢?」马斯克说。
加州时间 9 月 30 日晚六时,特斯拉 AI Day 准时开始,今年展示的内容有关自动驾驶 FSD 的新进展,人形机器人,Dojo 超算等,其中很多研究对通用人工智能也有贡献。
特斯拉 CEO 伊隆 · 马斯克在众人面前没有卖关子:「我知道大家都想看人形机器人的进展,去年是个真人穿着机器人衣服在演,看看今年的。」
只过了一年时间,特斯拉的人形机器人就来到了人们的眼前。
这是特斯拉第一次展示这款机器人的实体,没有任何连线或者后援,实际上以前在实验室里也没这么做过,这是只用半年多就完成的工作。
不过之后也没有做跳舞或回答问题之类的表演,相比波士顿动力的 Atlas 似乎还差点意思。
「这机器人实际上能做很多事,不止是出来走走,」马斯克说道。随后的 Demo 视频中特斯拉展示了机器人搬运箱子,给花浇水,在特斯拉超级工厂里工作的画面。机器人导航用的 Autopilot 系统和特斯拉汽车上的是类似的系统。
它目前还不能完全达到我们的设想,不过马斯克认为「再过几周」问题就不大了。考虑到这个机器人设计出来只用了半年,未来成型的样子还是可期的。
现有的其他类人机器人「缺少大脑」——自行解决问题的能力不足,这是 Optimus 想要解决的问题。在机器人设计原则上,马斯克强调了高可靠性和低成本两点,「们的目标是尽快制造出有用的人形机器人」。它的产量可能达到数百万台,价格会比汽车便宜的多。马斯克认为最终的价格会是两万美元以内。
作为参考,目前 Model 3 的售价是四万美元起。
特斯拉表示,机器人工作时的功耗是 500W,类似于台式电脑,重量达到 73 公斤,手运动的自由度有 27 个。
它有一个容量为 2.3KWh 的电池组,足以工作一整天,计算设备是一个 Tesla SOC,可进行 WiFi 和 4G 网络连接,各种电源控制系统都被集成到了一个 PCB 中。
特斯拉工程师说:「虽然人类可以仅靠少量食物维持生命,但我们不能在不工作时停止新陈代谢,机器人就不一样了。」
整体而言,Optimus 具有破坏性控制、适合量产的结构、集成式结构控制设计、受人类启发的膝关节、基于任务的膝盖需求、以及为高效致动器进行优化的关节,每只手可以提起 20 磅重的物体。
具体到手部细节,它有 6 个致动器、11 自由度、自适应抓握以及不可反向驱动的手指。在性能方面,能够抓起 20 磅的包、使用工具以及精准地抓取小部件等。
特斯拉表示,很多特斯拉汽车的经验已被应用于构建 Optimus 机器人。
视觉深度学习模型是直接从汽车移植到机器人上的。在室内导航时 GPS 基本不可用,所以需要通过传感器接收更多点位以提高精度,不过测量周围可通行区域的机制也是和汽车自动驾驶通用的。
几位工程师分别介绍了框架设计、关节驱动马达动力,以及机器人导航、行走、配合搬运工作的机制。在不断提升机器人能力的同时,工程师们还在努力降低 Optimus 机器人的功耗和零件数量。
人型机器人在全面投入使用之前还有很长的路要走,不过潜在的作用不言而喻。「我认为人形机器人会从基础上改变人类文明的形式,」马斯克说道。「如果说自动驾驶能够提升半个数量级的经济效率,我认为机器人可以提升两个数量级。」
特斯拉的 FSD 自动驾驶目前已经拥有 16 万用户,2021 年这个数字仅为 2000。特斯拉 Autopilot 的工程师们在 AI Day 上广泛谈论了在不增加任何新硬件的情况下让特斯拉汽车实现自动驾驶的追求。
特斯拉的自动驾驶系统使用视觉传感器,全部计算都在车上的计算设备上完成。
特斯拉介绍了 FSD 在为用户进行决策时使用的方式,以及收集数据对改进自动驾驶算法的作用。该公司还解释了占用(occupancy)及其在 3D 映射和提供汽车鸟瞰图方面所起的作用。
特斯拉开发了一种新的自动打标签方式来帮助系统进行 3D 标签,工程师解释了当相机显示不清晰的图片时,该软件如何在某些条件下使用其他剪辑来填充图片。
重建物理世界也是自动驾驶的必经之路,工程师展示了 FSD 如何使用从车队收集上来的数据来模拟世界:仅用两周就创建了旧金山城区的模拟模型。特斯拉也能随着时间的发展迅速更新模拟世界。
特斯拉预计将在 AI Day 之后发布 v.10.69.2.3,不过没有公布具体发布日期。
在 2021 年特斯拉人工智能日上,Dojo 超级计算机首次亮相。之后,特斯拉以快速试错的思路克服困难并尽快向前推进。
其中,电压调节模块在 24 个月内更新了 14 个版本。
同时 Dojo 在设计上更加集成。集成解决方案中使用软终端电容器来减轻振动、根据共振进一步调整频率等。
如下为 Dojo 超级计算机系统的全景图,包括 D1 芯片、训练 Tile 和 ExaPOD。
Dojo 系统托盘(System Tray)具备了高速连接、密集集成等特性。
Dojo 接口处理器提供了训练用的高带宽内存、TTPOE、标准 PCIE 主机接口、高带宽 Ingest、高基数 Z 平面连接性等特性。
Dojo 主机接口包括了 Ingest 处理、用户应用程序等。
接下来是 ExaPOD,它达到了 1.1 EFLOP,1.3 TB 的高速 SRAM(静态随机存取存储)和 13 TB 的高带宽 DRAM(动态随机存取存储)。
在软件堆栈部分,从上到下包括了神经网络模块、PyTorch 扩展、JIT 神经网络编译器、LLVM 后端、多主机和多分区管理、Ingest 和共享内存以及底层的 ExaPOD。
在 Dojo 编译器部分,用户可以将它用作一个加速器。
Dojo 团队展示了使用通过 Dojo 运行的 AI 大模型生成「在火星上的 Cybertruck 和 Semi」的图像。
特斯拉最后展示了未来发展的路线图,计划是在 2023 年之前建造第一台 Exapod,从而大幅提高自动打标签的数量,
从人形机器人到超算,特斯拉要做的事,看来是想引领 AI 前沿技术。
「未来的 AI 训练需要大量的多模态数据。我们可能拥有全世界最多的数据,和训练模型的能力,我觉得我们可以为 AGI 的研究作出贡献,」马斯克说道。
声纹识别:从理论到编程实战
《声纹识别:从理论到编程实战》中文课上线,由谷歌声纹团队负责人王泉博士主讲。目前,课程答疑正在持续更新中。
课程视频内容共 12 小时,着重介绍基于深度学习的声纹识别系统,包括大量学术界与产业界的最新研究成果。
同时课程配有 32 次课后测验、10 次编程练习、10 次大作业,确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com