作者:Paul Pop(Neurolabs CEO)
译者:张雨嘉
原文:How our Obsession with Algorithms Broke Computer Vision: And how Synthetic Computer Vision can fix it
深度学习的出现带动了整个机器学习领域的发展,以数据为中心的发展也一样。
本文将论述主流计算机视觉(CV)的缺陷,和未来的发展重点:合成计算机视觉(SCV)。
计算机视觉的现状
根据 Crunchbase 统计,过去 8 年里对超过 1800 家计算机视觉创始公司的投资价值超过 150 亿美元。《福布斯》数据也表示,现在有 20 多家 CV 公司的估值超过 10 亿美元,并且还在持续增加中。
为什么这些公司的估值这么高?因为他们教会计算机看待世界的方法,让以前通过人类视觉才能完成的任务进行自动化。
这种繁荣景象是在 2012 年计算机视觉领域出现神经网络技术之后才有的。神经网络是模拟人类大脑的一种算法,使用大量的人类打标数据进行训练。自 2012 年以来,算法进行多次稳步改进,在某些视觉任务上的性能已经可以与人类相媲美,比如目标计数、唇语识别或癌症筛查任务等。
这 10 年里,很多人都对计算机视觉领域的发展有所贡献:学术界研究更好的、先进的算法;大公司对努力给图像数据集打标签的人进行投资支持。还有一些成果也会为了大家的利益进行开源,比如包含 1400 万张图像数据的 ImageNet 数据集。
但是,当我们将这些系统部署成产品时,就会遇到以下问题:
1.现有标注数据并不可靠。麻省理工学院一支团队对机器学习(ML)的数据集进行系统研究时发现,ImageNet 数据集中标记错误的错误率为 5.93%,其他数据集的平均错误率为 3.4%。
2.很少有人去专门解决数据本身的问题。学术界大都把智慧集中在算法开发方面,忽略了对良好数据的需求。吴恩达曾表示,人们 99% 的注意力放在算法上,而数据仅剩 1%。
3.计算机视觉算法不能很好地从一个领域推广到另一领域。用于检测法国南部车辆的算法,就很难在积雪覆盖的挪威进行车辆检测。同样,在特定相机上训练的系统很可能在另一个相机制造商或型号上就会出故障。
早在 1946 年,Alan Turin 就建议将国际象棋作为计算机能力的评价标准之一。经过更加深入的研究,这一标准得到了很多媒体的关注和认可。
Elo 评分系统是大家普遍接受的衡量国际象棋表现的方法,它可以有效比较大家的棋艺水平。下图是世界冠军和国际象棋游戏引擎的评分。在过去的50年里,人类的表现一直徘徊在 2800 分,但在 2010 年被计算机超越。
最近十年,人类一直基于自己可以理解的规则设计国际象棋算法。但深度学习革命却可以超越人类的理解范围,带来像计算机视觉一样的飞跃发展。
虚拟现实引擎有专门的生成合成数据的组件(比如 NVIDIA IsaacSim,Unity Perception),这些合成数据不仅美观,而且有助于训练更好的算法。
3D 功能正迅速成为一种必需品——最新的 iPhone 手机就配备了激光雷达(LiDAR)和用于 3D 扫描的应用程序,来达到更好的性能。
元宇宙(Metaverse)的时代即将开始。人们将会渐渐习惯生活在虚拟现实的世界中。比如未来的宝马制造厂和谷歌的孪生供应链,就会应用到数字孪生技术。
行业的领头者已经开始使用虚拟现实技术来改进计算机视觉算法:特斯拉(Tesla)就在利用虚拟现实技术来生成驾驶场景的边缘情况和更多的新视角。
点这里关注我👇记得标星~
热门视频推荐
更多彩视频,尽在学术头条视频号,欢迎关注~
Science:Delta变体为何有高度传染性?诺奖得主团队有重磅发现!
Nature重磅:“空气燃料”不是梦!碳中和里程碑初验成功