极市学者专访|第一期
“听大牛说说计算机视觉那些事儿”
本次专访,我们邀请到了华南理工大学电子与信息学院金连文教授,与我们共同探讨计算机视觉前沿发展与未来动向。
观点提要
“发文章只是研究工作的副产品,打好基础,平衡点与面,才能提出有创新的方法。”
“资源有限,解决深度学习工程落地的方式要从数据本身去做思考。”
“深度学习使得学术界和工业界的关系更紧密,而学术界应该做一些前瞻性的、探索性的、区分于工业界的问题。”
“做增量创新容易,做原创创新困难,但原创创新更能创造价值。”
“数据提炼可能是人工智能的下一个突破口。”
“以深度学习为代表的这一场人工智能革命,还没有到它的高潮的时候,未来也一定还会有更多的新方法、新思想、新理论等突破性进展出现。”
“人工智能离真正的大爆发还很远,还有很多研究的空间,我们依托这个方向还可以向前走很多年。”
学者介绍
深度学习的“学”与“用”
关于“学”
好的学术生态是什么样的?
Q1
在大学里,很多本科学生进校起就以发表论文为主要目标。对此,您有什么看法?
金连文:这个问题要一分为二来看:一方面来讲的话,发文章是我们研究成果最主要的体现,通过发文章这个形式,能够把知识传承下去,分享给全社会,因此这件事本身没有错。
但是现在有一个比较不太好的“唯论文”导向:以发权威期刊、顶级会议论文来作为评价研究水平及能力的唯一标准,比如很多公司招人的时候,如果有一篇顶会文章,可能工资待遇就不一样,我觉得这就不是一个特别好的导向。
在10多年以前,除非是大型或者研发型公司或机构,一般来说本科生毕业时发文章与找工作没有特别直接关系,但在人工智能的浪潮来临后,许多人工智能公司往往以发文章作为公司的估值的一个重要依据。在大学里同学们也认为发文章变得特别重要,没有一篇顶会牛刊文章,似乎就找不到特别好工作。国内有些好学校的学生,甚至可能大二大三就开始发顶会牛刊论文了。
虽然说这样看来我们做研究跟培养人才结合更紧密了,学生们不再排斥做研究写paper,也喜欢去做一些探讨性的工作,大家都很自觉地去读paper,有很好的学术氛围,作为导师肯定会很高兴。但是另一方面,如果将能不能发文章作为评价学生学术水平的唯一的标准,是非常有局限性的。发文章只是研究工作的副产品,如果做研究不是为了解决问题而去做研究,而是为了发文章去做研究,是本末倒置的。
因此,对本科生一进大学以发文章为目标,我是不鼓励的。首先需要打好基础,有很好的一个知识面,再找一个值得研究的点去深入钻研,并能够很好地平衡点与面,才能在某个点上提出有创新的方法。把问题真正解决好了,再发文章,才是正确的顺序。
因此,我也希望,一些公司不要把发论文变成一种商业行为,希望能够有一个很好的学术生态留给大学,给真正喜欢做研究的研究人员留一点空间。
关于“用”
第一个基于深度学习的手机端手写识别
Q2
在2015年到2019年,安卓版搜狗手机输入法的手写设置版权声明一栏,显示由华南理工大学提供技术支持,能为我们分享您的经历吗?
金连文:2012年ImageNet竞赛给学术界和工业界带来了很大冲击,许多人开始关注到深度学习这一领域。虽然我读书时研究的方向是神经网络,但神经网络在当时短暂地热门过一段时间后,就陷入了低谷。一个主要原因是当时训练出来的模型非常容易过拟合,因而在实际应用中不实用。甚至在2012年,虽然CNN取得突破性进展引起了研究人员的极大关注,但当时深度学习也存在许多争议,很多大牛说深度学习是忽悠人的,我有时也曾被这些观点动摇。但是在看了许多文章之后,我觉得这个方向还是非常重要,也鼓励我的学生继续坚持。
当时我们在这个方向走了很多弯路。那时候开源的代码很少,除了Hinton组开源的一套 Python代码以外,基本就没有更好的了,同学做实验都很辛苦,也很难出好的结果。有一次,我带的一位本科同学发现数据预处理很重要,然后我们加入了一些数据增广和预处理这些技术以后,做出了远优于传统方法的识别效果,这件事给我的冲击很大。
那时候移动互联网还比较火,我们就对模型进行了压缩及加速处理,在手机端进行了移植,实现了第一个基于深度学习的手机端手写汉字识别方法。
2014年,我们将这个手写识别引擎发布在谷歌市场,下载量超过100多万次。有一次,一位搜狗公司研究人员看到了我们的APP,并进行评测。发现华南理工大学的学生工程化能力很强,我们不仅识别率很高,还把模型做得很小,做得很快。在当时的手机端,大概20ms左右,就可以在没有GPU的情况下,完成处理一个字符识别的全部过程,在服务器的CPU端大概4~6ms,这个速度是非常惊人的。支持10000多类字符的CNN模型,模型大小还不到3M。因此,综合考虑之下,搜狗选择了与我们进行合作。
关于“用”
资源有限,如何解决深度学习工程落地?
Q3
庞大的数据资源大都由头部大型企业掌握,中小型企业如何解决在数据量以及计算资源有限的情况下,做好深度学习工程落地的问题?
金连文:长期以来,小数据训练模型在深度学习领域都是一个非常重要的问题。有很多思路解决这个问题,比如零样本学习、元学习、迁移学习以及这两年很热门的自监督学习等,这些都是在某种程度上去解决这个问题的大方向,也在近年出现了许多鼓舞人心的进展。
从实践方面而言,首先可以从数据本身去做思考:数据增广和数据合成虽然是常规的做法,但是怎么把数据增广、数据合成做好,和训练模型有机地结合,是很重要的。比如说我们早期跟搜狗做手写输入法的时候,我们的数据增广就做的很好。另外,数据合成也很重要,早期用纯图像处理的方法,后来有了GAN。虽然简单的用GAN生成的数据直接用来做识别作用不一定很大,但在数据不全的情况下,GAN的思想还是很好的,因为它可以有依据的造出数据,而且更重要的是GAN可以和识别模型进行联合设计及联合优化。
模型的鲁棒性确实是需要考虑的问题。我们实验室曾经跟某公司做一个OCR的项目,由于用户隐私问题,我们拿到的数据一共只有100多张图片,而且很多识别条目要求精度99%以上。我们当时就是用数据合成的方法,最后基本达到了要求。虽然后来发现,如果换了另外一家银行不同风格的数据后,不进行调优直接用的话,精度会下降好几个百分点,说明合成数据的鲁棒性还有待提升。但是在特定应用场景下,合成数据确实是一个好的解决方案。
“学”与“用”
学术与工业的关系
Q4
在您看来,在大学和商业世界两个领域,计算机视觉研究分别有哪些侧重点?
金连文:从传统上来说,工业界和学术界还是有很大的差距的。工业是以产品为导向的研发,80%的公司的研发是为半年以后的产品或者一年以后的产品服务,规模更大的公司可能是为3~5年之后的产品服务。在这种情况下,就很难去做一些基础化、前沿化的探索性研究。因此,在深度学习出现之前,一般是学术界里面技术比较成熟了,才会应用在工业领域。
深度学习的出现改变了这个现状。深度学习在学术界和工业界之间架起了一条很好的桥梁,使得学术界和工业界的关系变得前所未有的紧密。与过去相比,更多学术界中研究技术可以更快地应用在产品中。甚至今天我们看到的很多最前沿的研究,都是在工业界中产生,工业界和学术界之间的界限在逐渐变得模糊。
但从我个人的角度来说,我经常与同学们讨论这个问题:我们数据PK不过工业界,我们的GPU等硬件资源也比不上,那么,我们高校里做的研究,优势在哪里?我们应该做什么样的研究?我们应该选什么样的题目来做?我们应该思考这个问题,不能去做一些同质化的研究工作。比如说物体检测、人脸识别、文字识别这些领域,虽然每年都有大量研究成果,但是实际上门槛已经很低,即使很多问题有着不少新的发展,但对于很多实际问题,工业界比我们做得更快,也比我们做得更好。
我们学术界应该做一些前瞻性的、探索性的问题,这种问题在短期内不一定能看得到研究结果或直接应用产出。比如无监督学习/自监督学习,研究它是有风险的,可能不能立马出有用的成果,但这样的一些探索性研究方向,是非常值得去关注的,也是在大学中应该去解决的。现在的学生也好,老师也好,都有各种各样的压力,长期研究一个的比较难的学术问题的确让人有些为难,做增量创新容易,做原创创新困难,但原创创新更能创造价值。
近期工作与前沿研究
Q1
我们有了解到您学生最近发表于CVPR2020的最新工作:ABCNet,在达到最新精度的同时显著提高了速度。您团队这个工作的研究动机是什么?在研究过程中,您如何解决出现的难点?
金连文:这是我的一位博士生做的一个工作,解决场景文字中任意形状的端到端文字检测和识别。我们最早并不是解决端到端的检测和识别,是打算做不规则任意形状的曲线文本检测。2017年,我跟我的学生一起去夏威夷参加CVPR,看到在当时的场景文字检测中,矩形框、多方向矩形框、任意四边形的场景文字检测已经有不少好的解决思路了,于是我们就想,能不能再往前一步,做复杂曲线文本的场景文本检测。当时就萌发了用Bezier曲线对不规则形状文字建模的初步想法。
在2017年中,曲线文本的数据是非常少的,所以我们回来第一件工作就是先把数据集先做起来。在2017年底,我们发布第一个中英文混合的曲线文本数据集:SCUT-CTW1500,近年来也被大家广泛地使用。2018年之后,出现了大量的解决任意曲线文本检测问题的相关工作,单独做检测已经不是太难的问题。在这种情形下,我的学生又往前走了一步,设计了一个新颖的BezierAlign层,用于精确地提取任意形状文本实例的卷积特征,和后面的识别器进行端到端联合优化。
对于端到端的场景文字检测这一问题,还有很大的发展空间。虽然在很多思路上大家都做了许多非常好的尝试,但是从解决这个问题的本身来看:比如曲线文本识别,在没有字典或语言模型辅助的情况下,在SCUT-CTW1500数据集上准确率还不到60%。因此,还有很多研究问题没有得到解决。
Q2
您已在计算机研究领域耕耘了几十年,这段时间里,在您重点研究的科学问题上取得了什么样的进展?您最近正在以及未来打算继续深入研究什么课题?
金连文:从我的实验室的角度上讲,我们不仅要解决特殊的应用场景问题,还会考虑大部分应用场景需要解决的问题。比如,曲线文本虽然是非常难且重要的问题,也是过去这两年场景文字检测识别当这个领域中的一个研究热点。但实际上,在很多在OCR相关的领域当中,曲线文本出现的比例并不大。
因此,我们会更加关注接近应用场景的检测识别问题,比如手写体、文档性文字等这样的一些端到端的检测识别的问题,以及相关的结构化理解问题(例如视觉富文档关键信息抽取及文档图像结构化理解)。这类问题虽然被关注得并不太多,但是实际上也是有比较复杂的研究问题需要解决,而某种程度上来说,这类问题有时可能还会更难,而且它的应用价值会非常的大。
深度学习的未来
Q1
您认为未来人工智能以及深度学习领域,有哪些研究热点和值得进一步挖掘的内容?
金连文:深度学习的革命和崛起,是一次非常重要的技术的革命,过去的5年各方面的发展也非常的巨大,在方方面面带来了很多崭新的技术。今天有很多学者称现在是后人工智能时代,但是我自己并不太赞同这个观点,我觉得深度学习的这一场革命,还没有到它的高潮的时候,它才刚刚兴起不久,还有大量的问题可以依托我们今天的已经开拓出的思路去解决,人工智能还有很远的路要走。我相信未来也一定还会有更多的新方法、新思想、新理论等突破性进展出现。
在计算机视觉领域,从宏观来说,无非是解决两个大的方面问题,一个是分析理解问题,一个是合成问题,即怎样理解我们这个世界和怎么生成数据。
第一,在OCR和这个领域当中,重要的方向有很多。比如说之前提到自监督学习、文档结构化理解问题等等,我们期待会有一些突破性技术的出现,这也是我自己比较关注的一个方向。
第二个方向,我觉得怎样更好的利用数据,也是非常重要的一个方向。用个比喻来说,数据就是我们的黄金,有数据我们可以做很多事情。计算机视觉的问题,如果标注数据充分多,随便找一个成熟的算法都可以达到一个很好的效果,但高质量且能够覆盖相应应用场景的数据是很难获取的。
我们比较容易获取的什么数据?你上网一搜可以搜到一大堆数据,或者标注质量不是特别高的数据,这些数据就像原油。那有没有一个很好的方法,自动化地把原油变成汽油,变成润滑油?这个很重要。如果能找到方法,那就可以一劳永逸地解决很多人工智能的应用问题。
因此,从这个角度看,数据提炼可能是人工智能的下一个突破口。
第三点,计算机视觉与自然语言理解这两个领域的结合也是一个很重要的方向。我们今天做的研究,感知的问题已经相对解决较好,但认知、理解和推理的问题还没解决好。比如说OCR领域,很多时候只是把字识别出来了,但并不知道这个字是什么意思。这个方向有很多实际需求,比如说作文自动阅卷和批改,这个就需要OCR和NLP相结合才能做。
第四,我觉得计算机视觉也好,人工智能也好,它需要解决一个问题是:我的机器学习模型,不仅是要知道自己知道,也要知道自己不知道。这说的是一个置信度的问题。比如识别一个文字,它被墨水污迹遮住了,这个时候这个字是不可辨认的,这个情况下,你的模型可以告诉别人,这个是没把握识别的,然后再让人工介入。如果能有这样一个高可靠的置信度机制,就能让这个模型更好用、更可用,对产品应用也非常的关键。也可以在机器人流程自动化(RPA)等许多新领域发挥重要作用。
“总体来讲,人工智能离真正的大爆发还很远,还有很多研究的空间,我们依托这个方向还可以向前走很多年。”
关于极市专访
邀请嘉宾:计算机视觉领域知名学者、业界技术大咖等
活动周期:每月1-2次
如果你身边有这样的大牛,欢迎在评论区下方留言推荐,点赞最高的学者说不定会成为下一次的极市专访嘉宾哦~
如果你觉得这篇文章让你有所启发,记得点个在看和转发~