听大咖讲课:
随着计算机和各类测量仪器的迅速发展,不仅数据量在迅速增长,数据的复杂度也在不断升高,传统的数据分析手段变得不再适用。因此,合理的数学建模和快速算法设计变得至关重要。如何将数学工具有效的应用到各类不同的实际问题中去?在未来论坛青年科学家创新联盟举办的Webinar中,北京大学北京国际数学研究中心董彬教授从图像处理及分析引入,给出了答案。
关键词:图像科学 数学方法 深度学习
图像识别 模型与算法融合
图像是我们认识自然界最直接有效的方式,从对自身的认识到对微观的世界的认识以及在计算机视觉中,都离不开数学。
通过X-光和CT技术可以揭示人体内部的秘密,在其成像过程中处处体现着数学的重要作用;而在对微观世界的认识中,从显微镜到纳米镜,再到展现生物微观世界的冷冻电镜成像,数学起着不可或缺的作用,将数学方法应用于图像重建、分析,从而助力于科学探索;在医疗健康领域,数学的作用也有相当的体现,例如通过对图像的分析,可以有效的辅助疾病的诊断和治疗、对病变做出精确的量化的分析、进而治疗方案优化等等。
现代3维CT
在深度学习层面,图像识别是深度学习的“乐园”,海量的图像数据培育出了大量新鲜有趣的模型,应用场景包括基于医疗影像的辅助诊断、图像编辑及生成、自动驾驶等等。但是任何事物都有两面性,深度学习也有自己的不足,比如像深度学习面临的小数据量、多模态异构数据等问题,这些问题在医疗领域尤其显著。由于发病率的限制,医疗健康领域的样本量是有限的,而针对一个病人,数据往往是多模态的,如何充分利用病人的影像数据、基因检测数据、家庭病史、用药史以及已有的医生诊断等信息,是深度学习在医疗健康领域应用的一大挑战。此外,如何增加深度学习的模型可解释性、提高训练效率、以及如何从理论上指导网络构架设计,这都是我们目前面临的挑战,而数学必将是解决这些问题的关键。
深度学习应用:通过Neural Style,董彬个人照变成了“梵高”照
数学家对数学的探索远远不止数学领域,很多著名的数学家都对图像科学非常感兴趣,并且做出了卓越的贡献。Ingrid Daubechics, Stéphane Mallat 等数学家研究小波分析及稀疏逼近,小波变换也被成功的应用在美国FBI指纹压缩和SpaceX火箭升空数值模拟等方面。在深度学习中,很多的网络构架都和小波变换在结构上十分相似,因此很多做小波的数学家也在关注深度学习。压缩感知也成功的应用到实际生产中,去年美国FDA通过了将压缩感知技术应用到核磁成像设备上。在压缩感知的发展中,David Donoho, Emmanuel Candes, Terence Tao 等数学和统计学家做出了巨大的贡献。Stanley J.Osher 等数学家在变分法和PDE在图像科学中的应用也做出了重大的贡献;David Mumford, Shing-Tung Yau 等数学家将几何成功的应用到了图像科学中。
我的科研工作基本上集中在“融合”二字,通俗地说是搭桥。这不仅包括数学内部不同分支的融合,也包括跨学科融合。来源于数学不同分支的模型与算法的融合可以取长补短,从而更好的解决实际问题,进一步拓宽数学的应用范畴。比如,应用调和分析、变分模型和偏微分方程的融合,应用调和分析与统计学习的融合,微分方程、应用调和分析与深度学习的融合。这些研究不仅加深了我们对现有方法的理解,也使我们能够设计出兼顾各类方法优点的新模型和算法。
图像是人类认识世界最直接的手段,很多情况下也是最有效的。大多数图像相关的问题都离不开数学,最近20年不仅数学推动了图像这一领域的发展,在实际问题中产生的新数学概念和工具又推动了数学的发展。我们处在数据爆炸的时代,我们对图像科学的期待和要求也越来越高,新的问题层出不穷,数据形态千变万化。要想以不变应万变,抓住问题本质,深度分析,从而能从根本上解决问题,数学将会起到至关重要的作用。
生命科学研究所 汤楠:怎么去分析重复的动态成像?比如在肺呼吸的情况下,怎么找到同一个位置上的细胞?
董彬:从字面上看,这应该是一个Video-tracking的问题,也就是分割和追踪。我们最近在做生物影像,也面临这样的一个问题,如何在三维加时间这样一个四维的动态里面提取一些细胞器以及位置。在呼吸方面,我们之前做图像重建的时候,处理过在诊断过程中实时追踪病人的呼吸,想法就是在建模时利用数据稀疏结构,引入时间和空间的先验知识。
汤楠:怎样在图像处理上计算呼吸或心跳带来的有规律的波动?
董彬:对于CT图像重建的时候,在扫描过程中,病人是有呼吸以及心跳的。因此,在重建的时候,不能假设图像是静态的,要假设图像是动态四维的。若用传统的方法,那么在模型时需要引入一些其他的因子,比如把图像重建和配准结合在一起。在深度学习方面,也有很多类似的方法可以解决这个问题。另外一个处理心跳的方法是,因为心跳有不同的phase,固定一个phase的数据量是非常少的,但是可以借助深度学习训练一个正则化的能量项,这样可以在不同程度上超过经典的压缩感知。当然也可以简单的对不同phase各自重建,再在时间上做正则化的处理,两个步骤可以交互迭代。
中科院计算所 山世光:在深度学习的理论层面,在数学上有什么进展吗?或者有哪些角度可以去进行理论分析?
董彬:Massimo Fornasier等人最近刚发表的一篇文章中,提到以前证明神经网络可以拟合复杂函数的时候,是说存在一个网络,而这篇文章中指出一个算法可以找到这样的一个网络。但是这里最难的是理论和现实是有很大差距的。一方面,从逼近的角度,调和分析去分析深层网络为什么有效。另一方面,从神经网络的构架,基本可以分为两大类,一类网络是像UNet这种,比较适合用调和分析的方法去刻画,另一大网络就是带by-pass的网络,比较好的切入点是最优控制、动力系统,偏微分方程的角度去描述。但这些都离理论指导神经网络设计还有一定的距离。
美国阿贡国家实验室 周华:如何有效甄别图像处理中可能出现的假象?或者说如何避免我们被图像的表象所欺骗和误导?
董彬:关于图像中的欺骗,在深度学习里面也有很多研究。例如训练好一个网络,类似一个黑匣子,它可以高度的去识别一些内容,但是也很容易被欺骗,比如在一张图像上做一个像素的修改,就可以让神经网络很确定的判断它是另外一类东西。如果把神经网络看成某一种从一个高维空间到另一个高维空间的一个函数,那么这个函数在数学上有两种刻画,一个是该函数的Lipschitz常数,描述是怎么依赖于输入的扰动,还有一个是该函数针对扰动是否有下界。这个问题一直存在,现在还没有很好的被解决。
西门子医疗研究院 周少华:成像和分析结合的好处来自哪里?分析阶段作为输入的影像数据相比成像阶段的原始数据有什么不一样或者丢失了什么重要信息吗?
董彬:我和哈佛大学的李全政教授的团队最近做了一些尝试。传统的医疗影像分析,都是先做图像重建,再做识别,分开做。这样做的问题在于衡量图像重建质量的标准,如PSNR,不是针对某一个具体的任务的;并且在重建的过程中,肯定有信息丢失,那么这些丢失的信息在做识别的时候是无法恢复的。此外,如果图像重建是基于任务的,我们有可能进一步减少数据的采集,这对CT和MRI等成像模态是至关重要的,换言之,用端到端的方法我们有可能超越压缩感知方法。因此,我们要做端到端,而不是“两步走”,那问题是怎么做、有什么好处?我觉得深度学习就像玩乐高一样,我有各种各样不同的原件,但是可以把它拼到一起来做端到端的训练,实现非常复杂的功能。我们设计了一个端到端的网络,这个网络的前半部分是由传统的迭代算法诱导的图像重建网络。在应用层面来讲,任何一个迭代的算法都可以展开变成一个端到端的网络,可以做图像重建,这比随便搭网络做重建的有更多的优势。网络的后半段是识别的网络,在此之前需要做一些预处理,然后可以直接做一个端到端的训练。这样做的好处是不仅可以提高识别正确率,同时也为图像重建质量提供了一个基于任务的评判标准。我们的设计很灵活,可以用到很多其他影像模态和识别任务。
本期主讲嘉宾
董彬
北京大学,北京国际数学研究中心研究员,北京大数据研究院深度学习实验室研究员、生物医学影像分析实验室副主任。
2009年在美国加州大学洛杉矶分校(UCLA)数学系获得博士学位。博士毕业后曾在美国加州大学圣迭戈分校(UCSD)数学系任访问助理教授、2011-2014年在美国亚利桑那大学(University of Arizona)数学系任(Tenure-Track)助理教授,2014年底入职北京大学。
主要研究领域为应用调和分析、优化方法、机器学习、深度学习及其在图像和数据科学中的应用。应用包括图像重建及修复、生物与医学成像、生物医学影像分析、疾病量化、治疗方案优化等问题。于2014年获得求是基金会的求是杰出青年学者奖,2015年入选中组部第十一批“千人计划”青年人才。
Webinar参与方式
未来论坛青年科学家创新联盟,简称“青创联盟”,成立于2017年9月份,旨在将全球优秀的华人青年科学家召集起来,在未来论坛平台上进行思想交流与前沿学术探讨,通过线上、线下活动,开展科普宣传、扶持青年科学家创业与科技成果转化、促进青年科学家跨界前沿科学的探索,从而发掘科研界的未来世界级领袖。成员来自于全球顶尖学院、科研机构、以及创新科技公司,涵盖物理、化学、生命科学、数学、计算机科学、电子工程等十多个学科领域。
YOSIA Webinar是围绕青创联盟成员举办的月度在线研讨会,每月一期主题,邀请该领域学术造诣深厚的青创联盟成员进行专业知识的分享,由青创联盟其他成员与具有专业学术背景的学生共同参与讨论,旨在通过对科研尖端问题交流的同时,激发跨学科讨论与交叉课题研究,促成跨领域合作,继而重新为学术研究注入全新的思维和角度。
合作请联系:lesley.lu@futureforum.org.cn