【会员风采】南京理工大学---宫辰

2022 年 4 月 15 日 中国图象图形学学会CSIG

基本信息

姓名	宫辰
工作单位	南京理工大学
职务	教授、博导 “社会安全信息感知与系统”工信部重点实验室副主任
研究方向	弱监督学习

人物简介

宫辰入选南京理工大学“青年拔尖人才选聘项目”，现任南京理工大学计算机科学与工程学院教授、博导。于2010年获得华东理工大学学士学位，并于2016年获得上海交通大学和悉尼科技大学双博士学位。其研究方向主要为弱监督机器学习及模式识别。已在ACM/IEEE Trans及CCFA类会议上发表70余篇学术论文，主要包括TPAMI, TNNLS, TIP, ICML,NeurIPS, CVPR, AAAI, IJCAI等，其中包括4篇ESI高被引论文。谷歌引用2750余次，h指数为29。共有7项发明专利获得授权。目前担任SCI期刊Neural Processing Letters副编委，AIJ, IJCV, JMLR, IEEE TPAMI, TNNLS, TIP等20余家国际权威期刊审稿人，并受邀担任ICML, NeurIPS, ICLR, CVPR, ICCV, AAAI, IJCAI, ICDM, CIKM, AISTATS等多个国际会议的(S)PC member或审稿人。主持国家自然科学基金面上项目、青年项目、江苏省自然科学基金面上项目等。曾获吴文俊人工智能优秀青年奖、中国科协“青年人才托举工程”、中国人工智能学会“优秀博士学位论文”奖、上海市自然科学二等奖、上海交通大学“优秀博士学位论文”奖、江苏省“六大人才高峰”、江苏省“双创博士”、江苏省科协“青年人才托举工程”等。

亮点工作

围绕弱监督学习，针对标签数量不足、标签类别存在缺失、标签存在错误的常见情形，分别对半监督学习（semi-supervised learning）、PU学习（positive and unlabeled learning）及标签噪声学习（label noise learning）展开了研究。

（1）半监督学习。传统全监督机器学习算（如SVM、DNN等）的训练过程依赖于大量的已标记样本。然而，在很多实际应用（如辅助疾病诊断、军事目标识别等）中，由于样本标注所需的人力、财力、时间等代价很高，我们往往很难获得充足的带标签样本做算法训练。因此，我们对半监督学习展开了研究，借助少量的已标记样本，同时结合大量的未标记样本进行模型训练，使算法获得令人满意的学习性能。特别地，本人受人类学习过程的启发，提出了“导师-学生交互式半监督学习”的框架。具体而言，该框架将传统的半监督学习算法视为“学生”，进一步引入“老师”这一角色，定义了学生“学习效果反馈”函数，使得学生的学习过程在“老师”的指导下按照由易到难的顺序开展，进而构建了机器导学（machine teaching）和机器学习（machine learning）协同的完整闭环学习框架。理论证明，引入了老师后可以降低学生的分类函数空间的Rademacher复杂度，以及学生在迭代学习过程中的累积误差，因此能够帮助学生获得更好的学习效果。进一步，通过引入多个老师，我们将“单老师+单学生”的基本框架进行拓展以适用于多标记学习、多模态学习及集成学习。具体地，不同老师分别从不同角度“教授”学生，通过挖掘老师的“个性”和它们之间的“共性”，综合设计出最优的教学策略，使学生在所有老师的共同指导下获得优异的学习性能。所提出的半监督学习方法在图像识别任务上，仅标注0.3%的样本，识别率便可提升约6%，且收敛速度提升了7.5倍。相关工作发表在TIP、TNNLS、TCYB、CVPR、NeurIPS、AAAI、IJCAI等权威期刊和会议上；应用于航天八院的实际工业项目中；荣获中国人工智能学会优秀博士学位论文奖、吴文俊人工智能优秀青年奖、上海市自然科学二等奖等。

（2）PU学习。PU学习是指训练样本仅有正样本和未标记样本，而没有已标记的负样本。其中，未标记样本中含正样本和负样本，但是它们的真实标签未知。近几年，PU学习被广泛应用于特定目标检测、异常点检测等问题中。我们主要从数据分布的角度出发，研究了“数据分布敏感的PU学习”。一方面，为解决无显式负样本的难题，并同时挖掘未标记样本携带的隐含信息，我们将传统的损失函数（如squared loss、hingeloss等）分解为标签无关项和标签有关项，并通过最小化标签有关项的上界及借助未标记样本均值获得了标签有关项的无偏估计。另一方面，为了充分利用数据的聚类及流形等分布特征，使不同类别的样本获得更有区分性的表示，我们基于经验风险最小化框架，提出了非凸的“帽状损失函数”以及“标签矫正正则项”以达到“大间隔”的分类效果；提出了基于期望最大化的多流形挖掘、基于流形切平面的歧义点分类、基于概率图模型的特征-标签因果挖掘等多种方法。于是，正样本和未标记样本的利用价值可以被最大化，从而有助于获得准确、可靠的分类函数。在异常行为检测任务中，所提方法的检测准确率达到95.2%。相关工作发表在TPAMI、TNNLS、TCSVT、ICML、IJCAI等权威期刊和会议上；应用于CCF-腾讯犀牛鸟的实际项目中；荣获中国科协青年人才托举工程等。

（3）标签噪声学习。 实际数据的标签往往含有错误和噪声。比如，当需要人工大量标注样本时，标注人员往往会因为疲劳或粗心导致标注出现错误。对于一些专业性比较强的领域，也有可能因为操作人员的知识经验不足或操作不当而造成标注错误。因此，我们对标签噪声学习展开了研究，希望算法在有标注错误的训练集上仍能输出鲁棒、准确的分类模型。具体地，我们认为噪声标签的产生与真实类别标签及样本特征都有密切的关系。首先，我们将样本特征视为边缘信息，使用标签矩阵恢复的手段修正潜在的错误标签，并采用低秩、组稀疏等正则项挖掘标签噪声的结构化特征。其次，我们使用图模型将真实标签、噪声标签、样本特征明确建立关系，给出了样本的“标签易错概率”计算方法，清晰地刻画出标签噪声的生成过程，进而使用EM算法求解一极大似然估计问题，从而同时估计出样本的准确标签及分类器参数。最后，我们研究了多个噪声标注者同时标注的众包情形，为解决标注者个体存在噪声及标注者之间存在分歧的难题，分别提出了基于聚类的标签修正及基于标注者质量估计的标签融合。在图像识别任务中，所提方法在标签噪声率高达60%时，仍能达到88.9%的识别率。相关工作发表在TPAMI、TNNLS、NeurIPS、AAAI、IJCAI等权威期刊和会议上；应用于支付宝与支付安全相关的工业项目中；并获得CVPR’21弱监督目标定位竞赛全球冠军。

人物专访

（1）请问您为什么选择弱监督学习作为您的研究方向？

其实弱监督学习是一个非常经典的机器学习问题，前人也已经在这方面积累了非常丰富的研究成果。我研究弱监督学习主要是因为在当今大数据的背景下，很多新的弱监督问题不断涌现，面对大数据如何减小样本标注和模型训练的成本更是成为一个亟待解决的问题。打个比方，现在很多工业界的项目团队面临一个新的任务时，往往就是不惜成本地搜集大量数据，请很多数据标注员做精细标注，然后再训练一个大的深度神经网络；提升算法性能往往也是靠搜集和标注更多的训练样本来实现。因此，项目团队中数据标注员的数量往往比算法工程师的数量还要多。在我看来，这么做会很大程度上增大产品的成本，人工智能方法本身的“智能性”也没有被充分体现。另外，我加入南京理工大学后，发现很多军事上的实际问题根本无法获得大量准确的标签。因此，如何尽可能地降低模型训练对数据数量和质量的依赖，从而节省成本和开销，就成为我非常关注的问题。其实，自我读博士以来就一直专注于弱监督学习的研究，目前我及我的学生团队主要聚焦于半监督学习、PU学习、标签噪声学习三个方面，它们分别可以解决标签不充分、不完备、不准确的问题。

（2）我注意到您培养的很多学生都取得了非常不错的科研成果，能请您分享一下您在教学上的经验或感悟吗？

谢谢！其实我一直认为作为一名大学老师，最重要的就是培养学生，为国家输送优秀的人工智能方面的人才，这也是作为一名老师的本职工作。教学中我秉承的一个基本理念就是“做人、做事、做学问”，坚持把立德树人放在首位，首先要求学生具备健全的人格、高尚的品格、端正的做事态度，然后才是做好的学问。教学过程中，我非常愿意把自己的知识、经验毫无保留地传授给学生,尽自己所能让学生在我这里学有所得、学有所成。教学方面我有几个比较自豪的事情：一是给本科生讲授《机器学习》这门专业基础课，收获了学生私下里发给我的很多好评；二是指导学生发表了多篇IEEE Trans或CCFA 类文章（如TNNLS、ICML、NeurIPS等），其中更是有一位本科生在AAAI’21上发表了2篇一作论文，这是我们学校本科生首次问鼎CCF A类论文；三是我的开门弟子拿到了江苏省优秀硕士学位论文，这对我来说是个很大的鼓励；四是我的学生在毕业后都有非常不错的去向，比如去IT大厂、去更好的学校继续深造等等。作为老师，看到学生取得了进步，比我自己取得成果都开心。我的教学目标是使学生具备扎实的专业知识、缜密的科研思维、较强的动手能力、广阔的学术视野，以及独立发现问题、思考问题、解决问题的素养，并且一直鼓励学生树立“立大志、做大事”的情怀。我觉得这些“软实力”对他们毕业后走向工作岗位也是十分重要的，即使有的学生毕业后不再从事科研工作，但这些素质也会让他们在各行业的工作中受益终身。我觉得作为一名老师，就应该甘为人梯、甘为绿叶、不求回报，但求问心无愧。只要我的学生在毕业时觉得从我这里满载而归，实现了人生的进阶和跨越，我就心满意足了。

（3）为什么您当初选择加入CSIG青工委？

我虽然加入咱们CSIG青工委还不满一年，还是一名新人，但之前对CSIG青工委早就有所耳闻。所以当我一看到纳新报名通知时，就第一时间填写了申请表，并邀请王楠楠和贾伟两位老师做我的推荐人。我觉得青工委里会聚了我们领域一大批优秀的青年学者，他们思维活跃、充满激情、朝气蓬勃，而且具有很高的学术造诣。因此，我加入青工委也是希望有机会向更多优秀的青年同行学习，拓宽自己的视野，促成更多的学术交流与合作。另外，作为这个活泼、团结的群体中的一员，我也十分希望借助青工委的平台，为学会及研究社区的发展和建设尽一份力、做一些贡献，维护好大家共同的学术家园。最后祝青工委及学会越来越壮大、发展地越来越好！