胡瀚,湖北潜江人,本博均毕业于清华大学自动化系,曾就职于百度研究院深度学习实验室,目前任职于微软亚洲研究院视觉计算组。近期他和团队的“ Swin Transformer:Hierarchical Vision Transformer Using Shifted Windows ” 摘得 ICCV 2021 马尔奖(最佳论文奖)。
#1 从看闲书谈起
科研人员闲暇做什么?也许千人千面。胡瀚在微软亚洲研究院工作,周末他偏好窝在家里看书作消遣。此外,他在工作日早晚也会挤出一段时间用来阅读。最近在看先秦两汉时代的书,翻着翻着他脑海里会闪现一些和工作中的互通之处。比如,那时诸子百家百花齐放,制度创新层出不穷,但这些思想和制度的创新大都是在前人的基础上进行的改进,以此适应最新的社会经济变化。他感慨做研究最好要做到心中有基准线,了解历史的演进过程以及目前支撑技术和生态的变化,这样才能更好地指引研究前进的方向。
《送东阳马生序》中有一句话:「幼时即嗜学,家贫,无从致书以观」。胡瀚的情况跟这有些相似,他从小便喜欢读书,兴趣浓时废寝忘食,索性村里小学的图书馆加一张床,每天泡在书海里。虽然后来学了理科,但他的阅文比较广泛,古今中外兼容并包,他最爱在历史书中索趣,他认为梳理历史脉络有助于树立“大局观”和“联系思维”。
“全局意识”对他学业和科研助益颇深。在思考问题的时候,他常常能够从眼前孤立的局部跳出来,探讨在更大的图景中对正确方向的把握。比如博士期间做视觉分割问题,他打破常规的纯工程角度,试图从人的视觉机制中寻找灵感,以指导和启发新算法的设计,这样最终形成的博士论文不再是纯工程模块的罗列,而是形成了更体系性和前瞻性的思考。
胡瀚对历史有许多自己的思考。说起喜欢的历史人物,他钦佩对人类思想变革有贡献的人,比如宣扬知行合一的王阳明;从底层做起、人格完整的的富兰克林,他的价值观智慧且实在;以及杰斐逊,时值美国建国思想大变革之际,他的政治理念和实践对人类社会的贡献功不可没。开卷有益,博览群书,无功利目的地海量阅读,使他形成了宽厚的知识塔基和灵敏的心智结构,从而在科研输出时尽量“知识自由”“引证自由”。
《卡萨布兰卡》里写到,「你如今的气质里,藏着你走过的路,读过的书和热爱的人。」践行知行合一,胡瀚把书里学到的应用在日常中,他向思想先锋们看齐,勇担最新鲜、最坦率的青年之责。
#2 勇于尝试,向优秀的人学习
身边的人优秀,会刺激自己变得更优秀,但不会对自己预期过高,我是个普通人,跟天才还是有差距的,并不会因为看到比自己厉害的人而心态失衡。
大学期间,会有意识地积极参加班级活动,也担任过学习委员、班长和团支书的职务,这虽然会占用自己的学习时间,但也通过为班里同学服务补足了自己一些能力方面的欠缺。事实上,刚上大学时,由于年龄偏小,又从比较封闭的农村出来,内心会有不自信并且有社交障碍,积极担任这些职务,也使自己克服了这些短板。
我的人生路径不是一开始就规划好的,而是一步一步的往前走,慢慢地发现自己的热爱和擅长之路,导师和师兄也在一直帮助我,我觉得是一件蛮幸运的事。
我在国外的导师对每位学生项目的技术细节指导地很细致,更 hands-on(亲力亲为)一些,而在国内的导师则会给我很多大方向上的指导和建议,并给与我充分的研究自由度。
#3 一个好的科研想法的台前与幕后
Transformer具有更强的建模能力、和卷积形成互补、对大模型和大数据有更好的扩展性、且能够更好地连接视觉和语言。
如果觉得有帮助,就请分享到朋友圈吧!
公众号后台回复“transformer”获取最新Transformer综述论文下载~
# CV技术社群邀请函 #
备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳)
即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~