攻克技术难关本身就是一件很有成就感的事情,那当然也是很有快感的事情。
自1956年,4位年轻的美国科学家提出“人工智能(AI)”的概念以来,在长达61年的发展中,AI更是历经了“三起两落”的曲折历程。
在这期间,有对技术盲目崇拜的疯狂,也有对未来充满疑惑的低潮。不过从总体上看,我们还是可以说人工智能一直在螺旋式上升的状态,其中有一些技术甚至对社会的很多相关行业都产生了重大影响和颠覆(具体请见文章:「深度」跨越一甲子的AI已在何处迎来爆发?16位顶级专家给出了答案)。
由此,也引发了业内对人工智能的众多思考和期待。
图 | 郭延文 南京大学计算机系教授
南京大学计算机技术与科学系教授、博士生导师,计算机软件新技术国家重点实验室的郭延文,一直致力于计算机技术方面的研究,对目前最热门的AI和VR相关领域有着深刻而独到的见解。
郭延文认为,终极状态下的人工智能,借助VR的强力和全面加持,将会让人类无所不能,甚至人们进入虚拟现实也不再需要任何介质。那时,谁都可以随时将自己置身于一个包括视觉、听觉、触感和嗅觉全体感的虚拟环境中,而不用借助人体器官的感觉。
据研究表明,人的感觉器官中接受信息最多的是视觉器官,视觉信息占大脑接受外部信息的80%,AI的研究是为了让机器像人一样智能,为了达到这个目标,让机器能够像人一样通过眼睛观察、理解和感知现实世界就尤为重要,这就是计算机视觉的研究范畴,是AI应用的关键技术。
郭延文教授和他的技术团队一直以来都在做计算技术方面的研究,在常人眼里这是一份会枯燥而乏味的工作。自然,从事这项工作何来快感?
事实恰好相反,科学家的快感始终是满满到让人羡慕的!
他们的快感来自于攻关克难的过程。
郭延文说:“在计算机科学领域,我做两个方面的研究,一个是计算机图形学与虚拟现实,另一个是图像视频处理和计算机视觉。
“做图形,就是在计算机中把我们看到的现实世界进行建模,然后把它绘制出来,就像你打的计算机游戏、看的三维动画电影等,都是借助计算机图形技术生成的;另外的图像视频处理和计算机视觉,作为人工智能技术重要的落地场景,比如说视频里的人、车和物的检测、家里门禁系统的人脸识别等,都非常具有现实应用价值。”
从这个层面上看,在做这些工作,从过程到结果,相对于其他技术门类来说似乎显得更形象、更直观。但是,其中仍然不乏大量的枯燥内容。
“话又说回来,这一领域里毕竟也有很多偏向于基础理论方面的研究,比如说理论计算机科学、量子计算等等。我也有多位同事从事这方面的研究,在外人看来这多少略显枯燥,然而专注于这方面的科研人员、科学家,他们对自身领域的感情,那绝对都是真爱!
“就像伟大的数学家发现数学之美,我们也能发现计算之美,大家都很享受研究的过程。另外,攻克技术难关本身就是一件很有成就感的事情,那当然也是很有快感的事情。”
很显然,这是个尴尬而难堪的话题。
数学史上最著名的“无解难题”之一、由法国数学家皮耶·德·费玛在17世纪30年代提出的“费马大定理”,就是一个典型的案例。这一定理在提出之后,憋死了无数英雄好汉!直到三百多年后的1995年,才被英国数学家安德鲁·怀尔斯彻底证明。
几乎在任何人的生活和工作中,失败或是挫折总是不可避免的。对此,郭延文也有着自己的切身体会:“说一个典型的例子吧。前年我们做了一个借助航空摄影进行三维场景重建的科研项目,用无人机为城市、工厂和港口等做三维实景建模,我们研发了国内第一个自带操作系统的航空摄影器材。记得有一次进行实验的时候,无人机在天上拍了一圈,落地后我们发现,系统盘里竟然一张照片、一点数据都没有!
“我现在还清楚的记得,当时大家的看到之后,心都凉了......心想是不是系统设计方向错了、理论模型有缺陷?......那种苍凉、失望,以至于怀疑人生的感觉,到现在仍然记忆犹新。”
不过,我们相信,在成功的解决了问题之后,那种绝望的经历就成了科学研究路上美丽的垫脚石。
因此说,做研究的很多时候很难设定一个时间表。但是研究也是有时效性的,如无人驾驶技术,很多巨头都在做,这里的各种研究大概都是有时间表的。如果说你慢了,就会被别人超越。
所以,这一般也是学术和产业的区别。
众所周知的是,目前计算机视觉在一个特定场景下的特定任务,已经达到和超过人眼的水平。比如正面的人脸识别,已经有一些较成熟的算法了。
不过在一般环境下的场景,计算机视觉技术距离人眼的认知水平还有较大差距。
郭延文说:“计算机视觉跟人眼的差距主要在两个方面。一个是信息的采集。人眼是天然感知深度的,对环境、光照等具有很好的鲁棒性。但是计算机视觉是通过配备的摄像设备实现的,单目视觉对视点和光线等的变化以及复杂环境的鲁棒性较差。”
“第二就是对信息的归纳和推理,虽然目前人工智能技术已经有了很大发展,经典学习理论和深度学习技术等也在不断进步,但相比人类归纳、联想和推理的能力,还有很大的差距,从而也造成了计算机视觉和人眼认知的较大差距。”
但是我们相信,随着大数据、人工智能的发展,其距离人眼视觉的差距将会越来越小,并最终实现超越。
扩展:自在特殊情况下,如强光、相似障碍物(如一群让人眼花的斑马)等,如何实现准确的视觉识别与处理?
这两个场景下的问题,是传统的基于可见光的图像处理领域,比较难以处理的问题。
不过现在的图像处理技术已经开始在做基于RGB-D的、含深度图像的分析和理解。如强光或阴影环境下,如果没有深度信息,计算机经常就会识别不准。但是如果有了深度信息,那计算机的各种算法、处理就会工作的更好。
另外对于相似障碍物,也是一样的道理。
就像手机来说,以后大家的手机应该会逐步标配含有深度感知功能的摄像头了。
计算机早期叫计算器、电脑、微机等,人工智能就是让机器具有像人一样的智能。近些年由于大数据、机器学习、深度学习等的兴起和发展,计算机和人工智能都到了很高的水平。
“我所设想的,他们的最终形态应该是计算机或者机器,具有像人一样的智能,能够用我们所能想到的各种方法,让我们人类的生活更美好。再加上虚拟现实,未来你想干什么、想要什么,计算机都能帮你实现。”郭延文说到。“人们进入虚拟现实也不再需要任何介质,随时可以将自己置身于一个包括视觉、听觉、触感和嗅觉全体感的虚拟环境中。最终让人不想区分哪里是现实、哪里是虚幻,这种似梦非梦的感觉肯定会棒极了!”
由此再加以延伸的话,我们是不是可以这样理解:在虚拟现实的加持下,终极的人工智能将会让人类自由穿梭时空?
比如你要去火星又坐不起航天飞机,那就来个虚拟现实吧,它会让你“想到就到”。刚开始,你还想着动动手脚,走两步或者触摸个什么东西。到后来,如果加入脑神经触发等技术,你根本不用动,就能完全实现诸如走动、触摸等各种由肢体或器官带来的感觉。
到了那个时候,物质的存在似乎就不那么重要了。
近来,业内一直有观点称,今后AR将取代或吞并VR,因为人们更喜欢在真实的场景中实现VR的各种效果。事实真的是这样吗?
对此,郭延文教授有自己的理解,“VR和AR各有各的用途。VR主要应用领域包括文化教育、数字娱乐、医疗、科学仿真等等;对比来说,AR的话,看到现实场景,利用VR技术,用虚拟物体去增强我们对现实世界的观察和感知。它的意义不仅仅是对场景的显示,更重要的是对现实世界更强化的理解和认知。而要做到这种理解,就必须要用到人工智能技术,如计算机视觉、图形图像识别等。”
这样来看,我们很难断定VR和AR谁会取代谁,只能说二者在未来会在各自特定的领域和行业内实现越来越多的结合,从而获得更大的发展。
/- 推荐阅读 -/
▲ 「人物特写」电子科技大学陈建文:没有完美的大数据,现实世界都是小数据
硬科技第一产业媒体
提供最有价值的行业观察