新书上架火热销售中
(点击图片即可进入购买)
来源 | 中国科学报
编者按:
人类视听觉认知机理研究是认知科学的重要组成部分,而人类视听觉信息的机器理解与计算一直是人工智能领域的主要研究内容,在国民经济、社会发展和国家安全等领域中扮演着十分重要的角色。
2008年,国家自然科学基金委员会(以下简称自然科学基金委)设立了重大研究计划“视听觉信息的认知计算”,旨在发展和构建新的认知计算模型与算法,为提高计算机对非结构感知信息与海量异构信息的理解能力和计算效率提供科学支撑。
实施10年来,该重大研究计划取得了丰硕成果。本期基金版将总结该重大研究计划的经验,展示其取得的成绩。
有智能驾驶功能的汽车项目组供图
2018 中国智能车未来挑战赛开幕式现场项目组供图
当前,人们对于人工智能也许并不陌生,因为从几年前开始,相关新闻就时常见诸报端:AlphaGo在围棋比赛中战胜人类冠军李世石和柯洁、无人驾驶汽车获发测试牌照即将上路、越来越多高校成立人工智能学院和研究院……
简言之,人工智能就是让机器能像人那样理解、思考和学习,即用计算机模拟人的智能。它涵盖认知与推理(包含各种物理和社会常识)、计算机视觉、自然语言理解与交流(包含听觉)、机器学习等广泛的学科领域。因此可以说,视听觉信息的认知计算是人工智能重要研究内容,理解人类视听觉认知并建立可计算视听觉认知模型对人工智能的核心算法具有重大的启示意义。
来自上世纪的设想
但如果将时间回拨至二十年前,公众对人工智能的认识既没有如此深刻,也不像如今这样对它抱有那么大的期待。甚至在上世纪九十年代初,面对全球范围内现代PC的出现和普及,人工智能由于发展不及预期导致遇到资金困难等难题,经历了一场寒冬。不过,这个在当时看似“无人问津”的领域引起了中国工程院院士、西安交通大学教授郑南宁的注意。
“为什么人工智能会遭遇寒冬?我们面临的挑战是什么?”上世纪90年代初,中国工程院院士、西安交通大学教授郑南宁对这个问题进行了深入思考。
“1999年,‘视听觉信息的认知计算’重大研究计划立项的前期思考和顶层设计工作就开始了。”该重大研究计划指导专家组组长郑南宁告诉《中国科学报》,但由于科学家们最初并没有形成基本的共识,因此历经9年艰辛的研究积累和多次探讨,在自然科学基金委和专家们的共同努力下,才终于在2008年正式启动了这一重大研究计划,“这是我国在人工智能基础研究领域发展的里程碑之一,标志着中国人工智能科学研究‘国家队’的正式组建”。
“本重大研究计划在立项伊始,人工智能技术还未形成当今席卷全球范围的研究热潮,足以体现出自然科学基金委与相关专家的学术洞察力和战略前瞻眼光。”回首往事,郑南宁欣慰地说。通过这一重大研究计划的资助,我国在人工智能领域从理论、方法、技术到应用都得到了蓬勃发展。
让基础研究走出实验室
立项之初,为确保国家安全与公共安全、推动信息服务及相关产业发展以及提高国民生活和健康水平,研究人员确定了“视听觉信息的认知计算”重大研究计划的目标,即研究并构建新的计算模型与计算方法,提高计算机对非结构化视听觉感知信息的理解能力和海量异构信息的处理效率,克服图像、语音和文本(语言)信息处理所面临的瓶颈困难。
如何才能实现这一目标?在郑南宁看来,这需要从人类的视听觉认知机理出发。“围绕认知过程的‘表达’与‘计算’这一基本科学问题,我们重点开展了‘感知特征的提取、表达与整合’‘感知数据的机器学习与理解’和‘多模态信息协同计算’三个核心科学问题的研究。”
“计算机对感知信息不能有效处理,根本原因则是不能对真实场景的基本特征进行可靠提取,缺乏对真实场景基本特征的一般表达方式以及对不同模态下信息特征有效整合的理论。”他指出,虽然机器学习和人工神经网络等方法近年来在高维数据可视化、特征提取、数据聚类与特征子空间分析等方面取得了重要进展,但非结构化数据本质维数的确定仍然是一个公开的难题;现有的信息处理方法主要是针对单模态的,对多模态信息的处理还基本上停留在将各种单模态信息的处理结果在决策层面上进行融合。“正是因为这些基本问题没有得到解决,计算机才只能处理比较理想状态下的一些简单问题,很难处理现实世界中的复杂问题。”
通过对上述三个核心科学问题的研究,十年来,该重大研究计划在认知机理和模型、视听觉信息处理、自然语言(汉语)理解等方面取得了一系列标志性成果。
例如在视觉认知机理方面,研究人员提出了知觉物体的拓扑学定义和注意瞬脱的拓扑学解释等基础理论和模型;在视听觉信息处理与计算方面,建立了视觉注意力统计学习计算模型和显著性目标检测新理论;在汉语自然语言理解方面,创建了一种新的语义计算理论框架,成功研发了一系列面向公共安全的语言交互系统。
据不完全统计,截至2018年9月,该重大研究计划共发表学术论文2255篇,申请国家发明专利532项。其中,在认知和信息科学相关领域的国际权威期刊上发表论文163篇,包括在影响因子5.0以上期刊发表论文50余篇。
“特别值得一提的是,为了进一步推动研究工作走出实验室、产生原创性重大成果,本重大研究计划创建了两个比赛平台,即‘中国智能车未来挑战赛’和‘中国脑—机接口比赛’,并组织了10届‘中国智能车未来挑战赛’和2届‘中国脑—机接口比赛’。”郑南宁介绍道,通过在真实的物理环境中验证理论成果,解决实际环境中复杂认知和智能行为决策等问题,改变了简单的论文汇总或实验室成果演示的传统模式,促进了应用基础研究与物理可实现系统的有机结合。
而这也为我国培养和造就了一大批计算机视觉、脑机接口、无人驾驶技术和人工智能等方面的优秀中青年人才。郑南宁说:“尤其是‘中国智能车未来挑战赛’,历经10年的摸索和实践,业已成为中国无人车研发的重要品牌,培养了一大批本领域优秀的中青年科技骨干,是当之无愧的中国无人车研发‘黄埔军校’。”
加强学科交叉共融
人类视听觉认知机理研究是认知科学的重要组成部分,而人类视听觉信息的机器理解与计算一直是人工智能领域主的要研究内容。可以说,自立项之日起,“视听觉信息的认知计算”重大研究计划就带有明显的学科交叉属性,比如信息科学、神经科学、认知心理学、数理科学等学科的交叉——而这也是郑南宁十年来感受颇深的地方。
“我们所谈的科学问题普遍性越强,它所牵涉的交叉性就越强。要解决基础科学问题,必须走学科交叉这条路。”郑南宁介绍说,该重大研究计划以“认知计算和脑机接口”和“无人驾驶与智能测试”两方面为切入点,共部署了5个集成项目,根据承担集成项目的10个项目组的不完全统计,论文分别发表在信息科学、认知科学、心理学、神经科学、物理学、生命科学等领域的国际核心学术刊物上,“充分体现了多学科交叉的特点和我们研究工作的学术水平,另外,自然科学基金委信息学部在重大研究计划实施的管理机制创新方面,也为不同领域专家的合作立项创造了宽松的环境” 。
比如,视觉注意机制是生物视觉的一个重要特性,早期的研究主要集中在心理学、认知科学和神经生理学等领域,上世纪80年代后,这一课题引起了计算机视觉、人工智能等领域学者的重视。该重大研究计划针对自主式车辆视觉导航的需要,多个课题组对此问题开展了深入的研究,在计算视觉与生物视觉结合方面开展了深入的多学科交叉,取得一批重要学术成果:清华大学在人机驾驶模型融合研究方面,开展了驾驶员感知信息处理与融合的认知机制研究;吉林大学模拟真实驾驶员对预期轨迹信息的认知处理机理,研究无人驾驶车辆的局部路径规划问题;西安交通大学研究了视觉注意机制建模问题,成为视觉注意力检测的代表性工作。
不过,在郑南宁看来,研究者的学科交叉还有待进一步深入。
“一方面,学科交叉取决于学者的热情,这是根本因素。同时,也要有自上而下的组织。”不过他指出,从实际情况来看,这两方面都有所不足,“研究者应该更多地去主动思考科学问题背后的学科交叉需求,对于研究中存在的一些急功近利,也需要去改变”。
实际上,不仅解决科学问题需要学科交叉,应对人工智能所带来的深刻的社会问题,也同样需要学科交叉。“因为人工智能模糊了物理现实、数据和个人的界限,延伸出复杂的伦理、法律和安全问题。人工智能的逐渐普及和深度应用一定会给人们带来心理的影响,进而产生社会人文风险,这已不是传统的工程安全方法能够解决的问题了。因此在这些领域,人文社会学科和哲学学科将会大有作为。”郑南宁说。
推荐阅读
点击购买《中国人工智能2.0发展战略研究》