【CAA智库】高文院士：转向跨媒体智能

2018 年 8 月 20 日 中国自动化学会

今天与大家分享的是根据高文院士在世界人工智能大会中所作报告而整合成的内容

以下为全文：

跨媒体智能是新一代人工智能的重要组成部分，通过视听感知、机器学习和语言计算等理论和方法，构建出实体世界的统一语义表达，通过跨媒体分析和推理把数据转换为智能，从而成为各类信息系统实现智能化的“使能器”。跨媒体智能引擎研究可在现有计算平台上进行，但是它的广泛应用需要研制更为高效的智能芯片和硬件，才能像生物大脑和感知系统那样以极低功耗来高效地表达外部世界的复杂结构。

幽居于颅骨内的人类大脑通过视觉、听觉、语言等感知通道获得对世界的统一感知，这是人类智能的源头。跨媒体智能就是要借鉴生物感知背后的信号及信息表达和处理机理，对外部世界蕴含的复杂结构进行高效表达和理解，提出跨越不同媒体类型数据进行泛化推理的模型、方法和技术，构造模拟和超越生物感知的智能芯片和系统。

跨媒体智能理论研究主要围绕跨媒体感知计算理论展开，从视、听、语言等感知通道把外部世界转换为内部模型的过程出发，实现智能感知和认知。主要包括：研究超越人类视觉感知能力的视觉信息获取，有效支撑对环境的全景、全光与透彻感知；研究能够适应真实世界复杂场景的主动视觉系统，发展复杂环境感知、建模和交互等技术，构建主动感知框架和技术体系；研究自然声学场景下的听觉感知及计算，实现复杂声学场景中语音定位和增强；突破真实自然交互环境中的语音识别鲁棒性、语音合成表现力、口语理解准确率等难点问题；研究自然交互环境中的言语感知及计算，实现类人的多语种多方言的言语感知和多语种多方言间的言语感知迁移；建立面向异步跨模态序列的类人感知和交互理论，研制突破图灵测试的跨模态社交机器人，实现与人类和谐地进行多模态互动和沟通；研究面向媒体智能感知的自主学习，发展仿人脑记忆的媒体协同分析方法。

对实体物理世界和虚拟理念世界的有效表达是智能的基础。经典人工智能通过谓词、命题和规则等方法在充分定义前提下进行推理，逻辑清晰，但未能有效解决符号系统和实体世界的对应问题，知识工程试图建立完备的常识库与常识推理引擎，但缺乏源头活水。如今外部环境已经发生重大变化，互联网、物联网和大数据的快速发展，正在将我们所在的物理世界通过海量传感器和多模态数据进行全天候描述，为建立物理实体世界的统一语义表达创造了外部条件，信息传播已经从文本、图像、视频、音频等单一媒体形态过渡到相互融合的跨媒体形态，如何将文本推理扩展到跨媒体分析推理成为了重要的研究问题。

在新一代人工智能发展规划中，跨媒体智能关键技术层面的研究主要围绕跨媒体分析推理展开，即通过视、听、语言等感知来分析挖掘跨媒体知识以补充和拓展传统基于文本的知识体系，建立跨媒体知识图谱，构建跨媒体知识表征、分析、挖掘、推理、演化和利用的分析推理系统，形成跨媒体综合推理技术，为跨媒体公共技术和服务平台的建设提供技术支撑，并在网络空间内容安全与态势分析、跨模态医疗数据综合推理等领域进行示范应用。

跨媒体智能的真正应用需要智能芯片和硬件的支持。机器感知一直是传统人工智能的薄弱环节，需要模拟生物视、听、嗅、味、触等感知通道的信号处理和信息加工模型，研制新型感知芯片并进行系统实验和验证。例如，仿视网膜神经网络结构和机理的高灵敏、高动态、高保真视觉芯片能够模拟生物视觉事件驱动、稀疏表示和异步传输等机理，达到“结构模仿生物视觉，速度超越生物视觉”的效果。又如，模拟多种生物（如灵长类、猫、响尾蛇等）的独特视觉机理，建立从复杂视频图像数据中快速搜索兴趣目标的理论、模型和算法，实现具备自适应、自学习能力的智能感知系统。再如，研究模拟生物皮肤的高灵敏度触觉感知器件和芯片，构建主动接触和精细反馈的触觉传感器和电子皮肤。

跨媒体智能的一个典型综合应用是智能城市。研究城市全维度智能感知推理引擎，解决城市发展过程中存在的感知碎片化、信息孤岛化等问题，建立以“大跨度、大视角、大信息和大服务”为特征的城市全维度智能感知推理引擎,实现对人、车、物、事件等的多维度、跨时空协同感知和综合推理。

另外，跨媒体智能技术还能够推进企业智能制造转型，为经济增长注入新活力，提升中国经济的发展质量。跨媒体智能引擎还将在智能医疗等重要领域得到应用，从而将对国民经济、国计民生、国家安全等产生重要影响。

据悉，高文院士将以大会报告专家的身份参加8月25日至26日于西安举办的认知计算与混合智能学术大会。本届大会由国家自然科学基金委员会信息科学部、中国自动化学会和中国认知科学学会联合主办，是国内首个关注认知科学、神经科学与AI交叉融合的高端学术会议，届时认知建模与计算、混合智能、受神经科学启发的计算架构与器件、先进感知、智能机器人、无人智能驾驶等领域海内外知名专家共聚一堂，交流相关研究领域的最新成果和发展趋势。

欢迎广大国内外学者及相关领域各界人士参会，期待您的到来！

报告题目：类脑视觉处理

报告摘要：人类视觉系统经过千百万年的进化，使得我们的眼睛和大脑高效有机联动实现视觉认知。其中，眼睛负责感知光信号，完成视觉神经编码，然后经过视神经网络将编码传导给大脑视觉野，最终形成认知。尽管我们对人类系统的完整模型与工作流程的科学发现尚未最终完成，但这并不会完全影响我们对其进行功能仿真。与人类视觉系统相比，现有人工视觉系统则是由摄像头负责采集光学信号，转换成数字信号后经压缩传递给计算机进行处理，包括特征提取与识别、分析等。我们会发现人类视觉系统与人工视觉系统最大的差别在于效率，包括认知效率和系统认知单位能耗比。为了提高人工视觉系统的认知效率，以及提高系统的能量使用效率，本报告在对人类视觉系统演进路径成因分析的基础上，提出人工视觉系统之数字视网膜概念与实现方法，并进而展望未来类脑视觉系统其他可能的演进路线。

专家简介：高文，男，1956年出生，中国工程院院士，北京大学博雅讲席教授、博导、信息与工程科学部主任，中国计算机学会理事长，新一代人工智能产业技术创新战略联盟理事长，全国专业标准化技术委员会副主任，数字音视频编解码技术标准(AVS)工作组组长。1988年获哈尔滨工业大学计算机应用博士学位，1991年获日本东京大学电子学博士学位。他曾在美国卡内基梅隆大学(CMU)机器人研究所﹑美国麻省理工学院(MIT)人工智能实验室等做过访问科学家。他1992年入选进入国家863智能计算机主题专家组，担任智能计算机接口领域的责任专家，1996年至2000年任专家组组长。他1998年至1999年曾担任中科院计算所所长，2000年至2004年担任中科院研究生院常务副院长，其间2000年至2003年兼任中国科技大学副校长。他2013年3月至2018年2月担任国家自然科学基金委员会副主任。2018年3月31日新任鹏城实验室（深圳网络空间科学与技术广东省实验室）主任。高文教授曾担任第十届、十一届、十二届全国政协委员，国务院学科评议组计算机学科成员，计算机学报主编。先后兼任IEEE T-CSVT、IEEE T-AMD、SPIC、JVCIR、IEEE FIP等期刊的编委。他曾担任IEEE ICME 2007（IEEE多媒体领域旗舰会议）、ACM MM 2009（ACM多媒体领域旗舰会议）、 IEEE ISCAS 2013(IEEE电路与系统协会旗舰会议)大会主席等。

他主要研究领域为人工智能，长期从事计算机视觉、模式识别与图像处理、多媒体数据压缩、多模式接口以及虚拟现实等的研究。在面向对象视频编码、可伸缩视频编码、人脸与手语模式识别、AVS视频编解码国家标准等方面做出重要贡献。主持973（首席）、863、国家自然科学基金创新群体等国家级项目二十余项。已出版著作6部，在ACM Computing Surveys、IEEE T-PAMI、IEEE T-IP、IEEE T-CSVT等本领域国际顶级期刊上发表论文（含指导学生论文）两百余篇。他获得国家技术发明二等奖1次（2006）、获得国家科技进步二等奖5次（2000、2002、2003、2005、2012）、获得国家自然科学二等奖1次（2015）。2008年底他因在视频编码方面的技术贡献，当选IEEE Fellow；2010年因“音视频编解码理论、标准及应用的突出成就”被授予中国计算机学会王选奖；2013年底因“对视频技术的贡献，及对计算在中国发展的领导力”而当选ACM Fellow。

高文院士大会日程安排：

来源：中国科技网

中国认知计算与混合智能学术大会报名通道已开启，欢迎广大国内外学者及相关领域各界人士参会，期待您的到来。

往期文章推荐

人工智能名人堂第49期 | 斯坦福研究院名人堂成员：Peter E. Ha

🔗【CCHI 2018】大会召开倒计时7天！期待与您共襄8月认知计算与混合智能学术盛典！

🔗【重要通知】2018新一代人工智能高峰论坛将于8月23日在福建漳州举办

🔗【重磅推荐】人工智能大咖齐聚北京，创新大讲堂9月盛势来袭！！

🔗【通知】2018全国第二十三届自动化应用技术学术交流会会议通知

🔗【观点】张军平：爱犯错的智能体 – 视觉篇(五)：火星人脸的阴影

🔗【CAC2018】中国自动化大会截稿时间变更至8月30日的通知

🔗【通知】2018年第三届全国建筑机器人技术论坛通知

🔗【征文】首届ABB杯全国智能技术大赛征文中，丰厚的奖励等你拿！

🔗【学科发展报告】控制科学与工程学科发展现状及趋势（一）

🔗【CAA智库】丁汉院士：未来机器人的特征是适应环境和与人共融

点击“阅读原文”打开大会网址

登录查看更多

相关内容

高文

关注 5

高文，中共党员，辽宁省大连市人，现任中国工程院院士、北京大学教授、鹏城实验室主任，中国计算机学会理事长，新一代人工智能产业技术创新战略联盟理事长，全国专业标准化技术委员会副主任，数字音视频编解码技术标准(AVS)工作组组长，国际电气和电子工程师协会会士（IEEE Fellow）、美国计算机协会会士（ACＭ Fellow）。1979年至1982年，在哈尔滨科技大学学习（跳级一年），获本科学位；1982年至1985年，在哈尔滨工业大学学习，获硕士学位；1985年至1988年，在哈尔滨工业大学学习，获博士学位；1988年至1991年，在日本东京大学学习，获博士学位。1985年至1996年，在哈尔滨工业大学工作，被聘为助教、讲师、教授，历任计算机系主任、校长助理。1996年至2006年，在中国科学院所属单位工作，被聘为研究员、教授、历任中科院计算所副所长、所长、中科院研究生院常务副院长（2000年至2003年兼任中国科学技术大学副校长）。2006年至今，在北京大学工作，被聘为教授、博雅讲席教授，任数字视频编解码技术国家工程实验室主任。2011年当选中国工程院院士。曾任第十届、十一届、十二届全国政协委员，国务院学科评议组计算机学科成员，计算机学报主编；2013年至2018年，在国家自然科学基金委员会工作，任自然科学基金委副主任。2018年至今，被聘为鹏城实验室主任。曾一次获得国家技术发明二等奖、五次获得国家科技进步二等奖、一次获得国家自然科学二等奖，获得“2005中国十大教育英才”称号和中国计算机学会王选奖。 http://www.jdl.ac.cn/htm-gaowen/

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

最新《生成式对抗网络》简介，25页ppt

专知会员服务

175+阅读 · 2020年6月28日

人机对抗智能技术

专知会员服务

212+阅读 · 2020年5月3日

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

240+阅读 · 2020年4月18日