【CSIG奖励访谈】自然科学奖二等奖“基于结构化认知学习的图像语义理解理论和方法”团队

2022 年 8 月 16 日 中国图象图形学学会CSIG
CSIG自然科学奖授予在我国图像图形领域基础研究和应用基础研究中阐明自然现象、特征和规律,做出重大科学发现的个人和团队。
为宣传科技工作者积极进取的工作精神,聚焦获奖团队背后的故事,学会近日对荣获自然科学奖二等奖“基于结构化认知学习的图像语义理解理论和方法”的项目团队进行了专访,以对话的形式,为读者们提供一次了解他们的机会。

下面就跟着我们的脚步,走近今天的受访团队吧。



问题一:首先非常感谢各位老师接受我们的采访,请先介绍一下团队成员:



“基于结构化认知学习的图像语义理解理论和方法”项目由中国科学院自动化研究所黄凯奇研究员、赵鑫副研究员、张俊格副研究员、陈晓棠副研究员共同完成。
黄凯奇,中国科学院自动化研究所研究员,智能系统与工程研究中心主任,博士生导师。面向国际前沿和国家需求,围绕人工智能开展图像理解、认知决策等方法、关键技术及智能评测平台等研究。负责六十余项科研项目,包括创新特区重点项目,国家重点研发计划、国家自然科学优秀青年基金、中科院前沿科学研究及重大横向合作多项。提出并构建了视觉感知和决策认知的方法和理论体系,深入研究了小样本学习、人机对抗等关键问题,在国际权威期刊和重要会议发表论文200余篇,Google Scholar 引用超13500次,六次获得国际视觉算法权威竞赛冠亚军,多次获得国际/国家学术会议最佳论文。授权国家发明专利60余项并用于国家重要部门,知识产权转化千万以上,获得包括2011年国家科技进步二等奖和2015年军队科技进步一等奖在内的多个奖励,担任包括国际知名期刊IEEE Trans.on SMCs,PR在内的多个期刊的副主编,担任包括IEEE国际视觉监控系列研讨会、全国智能视觉监控会议在内的多个重要国内外会议的主席和程序委员,是CCF杰出会员,IEEE高级会员,中科院脑科学与智能技术卓越中心骨干人才,中国指控学会常务理事,中国图象图形学学会视频监控与安全专委会副主任等。是国家万人计划领军人才(2020),科技部中青年科技创新领军人才(2019)、国家优秀青年基金(2013)、国家万人计划青年拔尖人才(2014)和计算机学会青年科学家奖 (2016) 获得者,第十二届中国科学院杰出青年 (2017)。
赵鑫,中国科学院自动化研究所副研究员。主要从事计算机视觉、模式识别、数据挖掘方面的研究工作,已在TPAMI、TIP、TCSVT、CVPR、ICCV、AAAI、IJCAI等国际学术期刊和会议上发表多篇学术论文。负责多项国家自然科学基金、科技创新特区项目,现为中国计算机学会(CCF)会员、国际电气电子工程师学会(IEEE) 会员、IEEE 信号处理学会(Signal Processing Society)会员,是多个国内、国际计算机视觉与模式识别学术期刊和会议的评审人。获得2011年首届亚洲模式识别最佳学生论文奖,2018年COCO Panoptic Segmentation竞赛亚军。
张俊格,中国科学院自动化研究所项目研究员。2019年入选北京市科技新星人才计划,2018年入选中国科学院青年促进会人才计划。主要从事计算机视觉、强化学习、博弈决策等相关领域研究。师从谭铁牛院士,博士论文获得2013年中国人工智能学会全国优秀博士论文提名奖。带领团队先后4次蝉联计算机视觉国际顶级挑战赛PASCAL VOC国际冠亚军,是国内首支摘取冠军的技术团队。2017年,带领团队参与博弈决策智能国际顶级挑战赛AIIDE星际争霸AI,作为国内唯一入围团队,获得全球第四名;2018年再次参赛获得国际季军,研发的德州扑克AI DecisionHoldem已经开源。近年来带领团队研发了博弈决策训练平台并已经全网开放(http://ai-gym.ia.ac.cn/)。
陈晓棠,中国科学院自动化研究所副研究员。主要研究方向包括:模式识别、计算机视觉、智能视觉监控等。已在重要国际期刊、会议上发表论文多篇,包括TIP、PR、CVPR、AAAI、ICIP、ACCV、计算机学报等;是多项国际国内期刊审稿人,包括IEEE T-CSVT、IEEE TSMC、Systems、Pattern Recognition、计算机学报、自动化学报等。目前作为课题负责人主持国家自然科学基金2项,作为实际课题负责人承担国家重点研发计划课题,并作为项目负责人承担多个企业横向项目。



问题二:了解完了团队内的各位老师,请为大家简单的介绍一下项目的情况: 



语义理解是计算机视觉研究最具挑战性的问题之一,也是国际学术界公认的21世纪难点问题。人类认知的研究表明,结构化信息表达及建模是图像语义理解的重要途径和手段。本项目组在973计划、国家优秀青年科学基金等项目的支持下,深入研究了视觉结构化模型学习、特征表达和语义理解等问题,提出了具有国际先进水平的理论和方法,并在图像语义理解中的物体识别、小样本学习、跨摄像机目标跟踪等典型任务中取得进展,为实现大规模图像语义结构化应用提供了坚实的理论和方法。围绕该项研究,共有三点学术发现:

图 1 基于结构化认知学习的图像语义理解理论和方法总体介绍
发现点一:结构化特征表达
创新地提出以先验结构化知识驱动特征进行表达学习,一方面,对基于像素间结构化约束的视觉特征表达方法展开研究,实现了精细化的视觉实例解析。另一方面通过特征之间的结构关系来避免特征学习中的局部最优化问题,实现了更具有泛化能力的特征表达。
发现点二:结构化模型学习
创新地提出了鲁棒可扩展的结构化模型学习框架,克服了传统学习模型对标注样本要求精度高、数量多的问题,突破了样本数量受限场景下模型学习的性能瓶颈,为大规模视觉应用提供了综合的解决方案。一方面针对单模态中物体与背景存在结构相关性的特点,通过探索隐式类别结构模型,实现了利用类别标注完成视觉目标定位的弱监督难题。另一方面针对多模态条件下存在数据异构性、表达冗余性的问题,挖掘不同模态在数据结构上的独立性与互补性的特点,率先提出了基于协同训练的半监督结构化模型学习框架,为模型学习提供了充分的多模态语义结构信息。
发现点三:结构化语义理解
系统地提出了基于时空语义结构挖掘与推理的语义理解方案,开展了图像视频底层特征、中层建模到高层语义的鸿沟的研究,重点突破时空语义结构的建模技术瓶颈,剖析了时空多模态结构因素的数据挖掘和融合问题,有效解决了跨摄像机目标跟踪、目标跟踪泛化性、实例级图像语义分割等难点。
该项目共发表论文106篇,SCI收录论文42篇,8篇代表性论文WOS他引总数为882次,Google Scholar他引总数为1681次,单篇最高WOS他引487次、Google Scholar他引818次,其中一篇代表性论文为ESI高被引论文。项目相关的成果获得了2011亚洲模式识别会议最佳学生论文奖、2012中国模式识别会议最佳论文奖、中国图象图形学学会优秀博士学位论文提名奖、北京图象图形学学会优秀博士论文奖。项目组分别获得了ImageNet、COCO国际视觉挑战赛冠、亚军。第一完成人获得了国家优秀青年科学基金,当选科技部中青年科技创新领军人才、国家万人计划“青年拔尖人才”、CCF-IEEE CS青年科学家、第十二届中国科学院杰出青年。

问题三:请问各位老师在科研过程中,有没有什么好的方法可以推荐给大家?



结合实际应用场景,聚焦核心科学问题。本项研究的出发点在于一般的视觉分析方法通常借助大数据进行黑箱式的大模型训练,对数据和计算资源要求过高,泛化性和鲁棒性也存在一定的问题。这与人类的学习过程存在明显的差异。认知科学的研究表明,人类具备通过定义不同抽象知识的结构实现知识归纳推理的能力,因此挖掘研究图像丰富的视觉语义结构信息对抽象知识的理解具有重要的指导意义。而本项研究正是从这一角度出发,对视觉结构化模型学习、特征表达和语义理解等核心问题进行了深入研究。

问题四:在项目的研究过程中有遇到什么困难吗?大家是如何解决的呢?



想要有效解决研究过程中出现的新问题,针对性的构建验证环境和评估准则是关键。针对结构化语义理解中目标跟踪的泛化性问题,项目组率先发起并构建了一个大规模视觉跟踪数据库和评估平台GOT-10k,并提出训练与测试类别不重合的评估准测来度量算法在开集测试下的性能。在此基础上,项目组进一步对现有视觉跟踪智能方法的局限性进行分析,提出全局实例跟踪任务(Global Instance Tracking, GIT),从“人机对抗”的角度出发拓展了单目标跟踪任务的边界,在视觉物体跟踪任务中引入人类实验者,旨在以人类视觉跟踪能力为基准,全面度量算法的智能程度。




问题五:最后,大家有什么获奖感言想说呢?



感谢中国图象图形学学会对我们的帮助!感谢评审专家对本项工作的支持!

视觉语义理解是计算机视觉研究的基础和核心问题之一。目前基于大数据、大模型的视觉分析模型和方法在常规场景中取得了巨大的成功,然而在复杂尤其是对抗环境下仍然与人类视觉感知能力存在巨大的鸿沟。因此,有必要打破机器和人类认知的鸿沟,从“人机对抗”的角度出发,以人类的视觉能力为标准,构建以视觉图灵为核心的方法评估体系,进一步推动相关领域的研究深入以及技术发展。




中国图象图形学学会2022年度系列奖励推荐工作启动
中国图象图形学学会科普活动、素材征集通知
中国图象图形学学会高校志愿者招募
中国图象图形学学会关于组织开展科技成果鉴定的通知
2022年CSIG图像图形中国行承办方征集中
登录查看更多
0

相关内容

申请国家自然科学基金心得与体会(PPT版)—刘家军教授
专知会员服务
126+阅读 · 2022年2月24日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
102+阅读 · 2019年12月13日
【CSIG奖励访谈】自然科学奖一等奖"复杂场景文字检测与识别"团队
中国图象图形学学会CSIG
1+阅读 · 2022年8月17日
【CSIG奖励访谈】2021年度CSIG优秀博士学位论文奖获奖者武阿明
中国图象图形学学会CSIG
0+阅读 · 2022年6月24日
【CSIG奖励访谈】2021年度CSIG优秀博士学位论文奖获奖者吴岸聪
中国图象图形学学会CSIG
2+阅读 · 2022年6月17日
【CSIG奖励访谈】2021年度CSIG优秀博士学位论文奖获奖者陈冬冬
中国图象图形学学会CSIG
0+阅读 · 2022年4月12日
国家自然科学基金
11+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年4月30日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关VIP内容
申请国家自然科学基金心得与体会(PPT版)—刘家军教授
专知会员服务
126+阅读 · 2022年2月24日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
102+阅读 · 2019年12月13日
相关资讯
【CSIG奖励访谈】自然科学奖一等奖"复杂场景文字检测与识别"团队
中国图象图形学学会CSIG
1+阅读 · 2022年8月17日
【CSIG奖励访谈】2021年度CSIG优秀博士学位论文奖获奖者武阿明
中国图象图形学学会CSIG
0+阅读 · 2022年6月24日
【CSIG奖励访谈】2021年度CSIG优秀博士学位论文奖获奖者吴岸聪
中国图象图形学学会CSIG
2+阅读 · 2022年6月17日
【CSIG奖励访谈】2021年度CSIG优秀博士学位论文奖获奖者陈冬冬
中国图象图形学学会CSIG
0+阅读 · 2022年4月12日
相关基金
国家自然科学基金
11+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
6+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年4月30日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员