中国图象图形学学会优秀博士学位论文奖旨在推动中国图像图形学领域的科技进步,鼓励创新性研究,促进青年人才成长。
为宣传科技工作者积极进取的工作精神,聚焦获奖人背后的故事,学会近日对荣获2021年度CSIG优秀博士学位论文奖的获奖者宋思捷进行了专访,以对话的形式,为读者们提供一次了解他的机会。
下面就跟着我们的脚步,走近今天的受访者吧。
问题一:首先非常感谢您接受我们的采访,请先向大家介绍一下自己:
大家好,我是宋思捷,2021年毕业于北京大学信息科学技术学院计算机应用技术专业,取得理学博士学位,导师郭宗明;博士期间以第一作者身份,在IEEE TPAMI, IEEE TIP等计算机视觉和图像处理领域国际期刊上发表和接收期刊论文3篇;在CVPR, AAAI等计算机视觉和人工智能领域国际会议上发表和接收会议论文4篇;共计发表6篇CCF A类论文。曾获北京大学2020年信科学术十杰,博士研究生校长奖学金,优秀科研奖,Google女性奖学金等多项荣誉奖项。
问题二:下面请为大家简单的介绍一下您这篇论文的情况:
随着智慧城市、智慧地球的不断发展,图像视频数据处理和分析理解系统已经融入在人们日常生活的方方面面。在生产的各个环节中,视频处理系统通过监控视频的重建和分析,监控和指导生产流程,智能化地操纵、决策或提供建议,以实现生产的高效和高质。在日常生活方面,海量的网络图像视频分享为人们提供了多维度探索世界、研究新知和亲朋分享生活的机会。在海量的图像视频数据中,视频中发生的动作是人们关注的主要内容,如人们动作的定位、分析、预测,这些需求使得人体动作分析逐渐成为计算机视觉领域的热门领域。现有动作分析方法多针对彩色图像(RGB)视频数据,然而,现实生活中多种因素(如低光、雾霾、阴雨等)可导致彩色图像视频成像质量不佳,影响现有动作分析方法的性能。随着深度相机的发展,人体骨架数据更加容易获得,其对光照条件、恶劣天气较为鲁棒,且为人体动作的高级抽象表示,这些特性使得人体骨架在动作分析中极具优势。本文围绕人体骨架数据,从骨架特征学习出发,以提升动作分析质量为目标,增强骨架特征在动作分析任务中的表达能力和引导作用,提升骨架特征的鲁棒性,挖掘骨架特征和其他模态特征的协同性和映射关系,重点针对动作分析的识别和生成技术问题,展开深入的研究。
论文主要研究了四个方面的内容:
(1) 提出了基于时空域注意力模型的人体骨架动作识别方法。针对该问题,开创性地提出了针对人体骨架的时空域注意力模型,提高了人体骨架关键信息提取的准确性。提出的方法能够显著提升动作识别的准确率和动作检测的平均准确率。
(2) 提出了基于噪声适应的人体骨架动作识别方法。针对真实环境下的骨架噪声问题,首次建立了人体噪声骨架数据集,提出了噪声适应的人体骨架动作识别方法,填补了人体骨架噪声研究的空白。该方法能够有效减少噪声引起的动作识别性能退化,提升动作识别的准确率和适应性。
(3) 提出了基于关联模态补偿的多模态动作识别方法。考虑人体骨架和RGB视频的互补性和协同作用,提出了多层次模态适应方法,改善了特征提取效果。提出的方法能够补偿测试阶段人体骨架数据的缺失,有效提升了针对RGB视频的动作识别性能,极大扩展了人体骨架的应用场景。
(4) 提出了基于跨模态语义转换的人体动作图像生成方法。针对该问题,创新性地提出了语义引导的模态映射方法,提高了映射关系中空域非对应性和几何形变的建模效率。提出的方法不仅能够生成自然真实的RGB动作图像,也可作为动作识别的数据支撑。
问题三:请问您在科研过程中,有没有什么好的方法可以推荐给大家?
每个人的科研之路都不是一帆风顺,压力和挑战是每一个博士必须面对的问题。摆正心态才能在科研的屡战屡败中屡败屡战,认识到在科研中遇到的任何挫折和挑战都是一件很正常的事情。同时也应该意识到,不是所有的困难都是可以被解决的,遇到实在解决不了的问题时,无需过多地苛责自己,面对困难,可以主动向导师、组里的同学及学术圈内结识的同僚寻求帮助,也可以暂时先将困难放一放,说不定之后就可以有新的思路或不同的切入点。在进行具体科研任务时,可以将目标定在60分,甚至50分,40分,将一个大任务切分成更容易实现的小任务,“Done is better than perfect”,达成后再进行反思,看看在哪些地方能做得更好,逐轮优化,最终达到比较满意的结果。
问题四:在您论文筹备过程中遇到的最大的挑战是什么?是怎样克服的呢?
论文筹备过程中最大的挑战还是研究内容不够充实,实验不完善,结论不够坚固。在有限的时间内思考如何使研究内容更加完备,补充实验,同时更新论文内容,还是压力很大的。一方面及时向导师反馈自己的研究思路,参考导师的意见或建议,能少走一些弯路,节约很多时间;另一方面也需要在心烦意乱的时候放松心情,平衡压力。
问题五:最后,有什么话想对自己的导师说呢?