2016年10月1日, 我很荣幸地作为Thomas S. Huang黄煦涛教授学术大家庭的一员,参加了黄教授八十大寿纪念学术研讨会。受研讨会组委会的邀请,我作了一个相同主题的报告。现在整理补充以后与有兴趣的同仁,尤其是年轻一代, 分享。这个报告的用意是以回顾我自己20多年学术生涯的个人历程, 以及与黄教授更加悠长,辉煌的学术生涯的相似度, 向前辈大师致以崇高的敬意, 并希望对比我年轻的从事科研的人们有所启发。
我们今天为什么花功夫做研究呢? 几百年前牛顿那个时代,科学家凤毛麟角。 开个玩笑,传说牛顿一日在一棵苹果树下打坐。砰的一声,一个苹果砸在牛顿头上, 他茅塞顿开, 于是有了万有引力定律。 这样的好日子已经一去不复返了。
近代也有因为苹果灵机一动,结果财源滚滚的。 大家都知道吧? 他就是乔布斯。
今天我们做研究的面临一个什么样的挑战呢?地上的果子没了,唾手可得的矮枝上的果子也给人摘光了。果子倒是还有,但是得费点力气了。而且特别高的树枝上, 还有特别甜的果子。
那么我们怎么样才能摘到研究的硕果呢? 我想是这样的。 要向前辈,大师们学习。 学习他们的哪些方面呢?我认识黄教授也有二十多年了,几乎和我自己的学术生涯一样长。潜移默化, 远程观摩, 我自己学到了什么呢? 第一, 要保持学术好奇心。 不要闭关自守, 要与时俱进。 不断地尝试新问题, 采纳新的理论技术。第二, 要有学术热诚, 不是三分钟热度。 一种热爱, 一种聚焦, 并长期保持, 才会日积月累, 有所成就。 第三, 要有治学精神, 这样才不会被各种浮躁, 各种跟风,各种浮夸所左右, 才会保持学术的严谨。 最后一点, 学无止境, 活到老, 学到老,才能永葆学术青春。
来看看我的学术历程吧。 我从本科, 硕士, 到博士论文, 都是做图像处理Image Processing。 九十年代初, wavelet 当红, 我的博士论文是做图像和视频编码。当时的standard是JPEG, MPEG。 我的博士论文尝试用Wavelet变换。 当然也得有自己特色, 比如利用wavelet的joint spatio-frequency表征结合人类视觉系统HVS的特点提高编码效率和消除解码后的图像瑕疵artifact。这篇论文已经有场景分析的雏形。
博士毕业后, 在柯达研究院一干就是15年。那些年都做了什么研究呢? 主要是智能化图像处理Intelligent Image Processing (智能,呵呵)和计算机视觉Computer Vision。举几个例子。 第一, 自动红眼消除。多少做图像有关研究的人知道,数字照相机是谁发明的? 柯达Kodak!自动红眼消除, 谁发明的?Kodak!这可是我亲身参加的。 那个年代, 没有深度学习, 连人脸检测都没有, 我们也做出来了。 有兴趣的可以去查查Kodak的专利(有很多citations)。 第二, 照片朝向自动检测。 很多人认为照片天生就是大头朝上的。真的吗? 这个问题我也提出了在当时条件下的最合理解法。 其他还有 图像自动标注。 现在很多年轻人以为图像自动标注是从ImageNet 开始的, 这是很幼稚的。 地理标记, 我们做的时候还没有Smart phone呢。 上下文与图像内容结合来做vision, 也是在Kodak的时候开始倡导的。“野生”视频中的动作识别和利用网络数据迁移学习事件识别,是在Kodak的最后几年做的。现在说这些, 不是王婆卖瓜, 是说几个意思: 没有深度学习也可以做vision, 很多东西其实先前就有人研究过了(所以查文献不能只看这两年的), 实践中能够提炼出很多有价值的研究命题。 这样的话就不需要老是跟着别人(“大牛”)的屁股后面走,去跟风, 去拼几个百分点。
2011年加入罗切斯特大学之后, 学术自由度就更大了。 从2013年起, 我的研究小组逐渐扩大, 研究范围也更加广泛。 现在有几个开拓点。 图像情绪识别 (与Adobe合作), 图像视频加标题 (与Adobe, Yahoo合作),医学图像视频分析 (与罗彻斯特大学医学院多项合作), 基于社交多媒体的计算社会学(与PARC, 纽约州司法部等合作), 大数据图文分析, 等等。 值得一提的是与Adobe合作的图像加标题算法曾经一度踞于MSCOCO图像加标题竞赛榜首达连续五个月, 和Yahoo合作的视频加标题大数据集为世界上公开的最大数据集。 这些工作都受到同行关注。
社交多媒体的研究, 我在罗彻斯特大学这几年强力推动。个人认为社交多媒体能提取的社会信号最重要的是两个:用户特征信息 和 情感信息。在这两个方面, 我们的工作包括 Twitter 图像文本集合情感分析和Pinterest 用户兴趣挖掘。
社交多媒体的一个重要的功能是用来把握社会的脉搏。 我们的近期研究涉及美国总统竞选状况分析,青少年酗酒问题, 毒品消费与贩卖, 等等。 具体的工作论文里有, 这里就不一一赘述了。 值得引起学术界兴趣的是, 大家都在反思, 为什么美国主流媒体, 各种民调都一致认为希拉里会胜选,结果令很多人大跌眼镜呢? 其实我们根据上千万希拉里和川普Twitter拥趸的社会结构, 已经看出川普不像舆论导向说的那样在妇女,高教育,高收入, 及少数族裔中那么不得人心。 这个工作不代表我们的政治立场, 是让数据说话(Let Data Speak)。 这个工作也不是马后炮, 我们的一系列工作是在选举结果出来前就见诸报端的。
我在黄教授的八十大寿研讨会上秀了这样一张照片。 那时我的导师陈长汶比我现在还年轻。 朋友开玩笑说那时的L教授一副踌躇满志的样子。 我觉得是初生牛犊不怕虎。
其实我博士毕业的时候一点没有想到二十年后是这样的。只是知道这辈子喜欢和图像数据打交道。我现在仍然在和图像数据打交道,而且乐此不疲, 而且花样翻新。 从这个意义上, 我觉得我是在跟随Tom的脚步,“东施效颦”。我觉得我是在模仿Tom的心境, 永远年轻。
二十年斗转星移,二十载躬耕陇亩。 这让我情不自禁的想起一首歌“ForeverYoung”。 我听过Rod Stewart中年男的版本, 现在更喜欢一个更年轻的有饶舌的版本,听起来觉得更年轻。
Forever young,
I want to be forever young.
Do you really want to live forever?
Forever, and ever
Forever young,
I want to be forever young.
Do you really want to research forever?
Forever, and ever
Jay-Z feat. Mr Hudson Forever Young Official Music Video and Lyrics ...
视频链接 https://www.youtube.com/watch?v=m1_EDno-44M
从图像处理, 到计算机视觉, 到多媒体, 再到社交媒体, 大数据, 啰啰嗦嗦说了自己的学术历程。我觉得我的个人旅途是效法Tom, Tom则打趣地说我的个人旅途比他的更有趣。 我不敢当, 只能说我enjoyed it 而且enjoying it more。
我的历程是与“黄家军“密不可分的。 Tom的学术大树根深叶茂, 我也有幸成为其中一员。 我很感谢我学术生涯中共事过的人们。这条交错的学术链一直从Tom,长汶,到我,再到我指导过的Tom的学生亮亮、 建朝, 再到亮亮和建朝都指导过的我的学生全增,运成。 Tom的学术家庭早已不再是一棵树, 而是一个网络, 一个深度网络。
做研究的, 心里年轻, 就永远年轻。让我们永远好奇, 永远热诚,并把这种精神传给我们的学生。 这样的话,年轻代代相传,代代永驻。让我们一起来庆祝黄教授非凡的学术生涯, 庆祝黄教授的学术之树蓬勃向上,永远常青!
版权声明:本原创文章版权属于《视觉求索》公众号。任何单位或个人未经本公众号的授权,不得擅自转载。联系授权转载请通过订阅公众号后发消息或电邮visionseekereditors@gmail.com。