【访学归来】陈旭:在佐治亚理工磨练自我

2018 年 2 月 14 日 清华大学研究生教育 陈旭
编者按

“清华大学博士生短期出国访学基金”自2010年起设立,受到“985”基金和校基金会的共同支持,为博士生赴国外一流大学或重要国际组织、师从一流导师开展研究工作提供4-6个月的生活费资助。至今已有超过1200名博士生获得基金支持。该基金受到师生欢迎,博士生普遍反映受益匪浅。

每个参加短期访学的博士生都有一段不可复制的、特别的经历,我们将不定期与大家分享他们精彩的访学故事。

亲,哪天能看到你的故事呢?


出国访学一直以来是我的一桩心愿。2017年初,我有幸得到清华大学短期访学基金的资助,来到美国佐治亚理工学院计算机系,跟随活跃在机器学习领域前沿的查宏远老师做相关研究。佐治亚理工学院(Georgia Tech)是常春藤名校之一,其计算机学科常年排名世界前五,与麻省理工学院、加州理工学院并列“三大理工学院”。回首半年的佐治亚理工访学生活,对我来说是一种磨练,更是一种考验,收获不可谓不丰裕。

在佐治亚理工的校园中

 增长见识,明确差距

在国内时,一直听说国外的计算机学科研究非常前沿,我从前不以为意,但这半年的学习,确实使我增长了见识。

与国内不同,这里对机器学习方向的研究很深入,往往从模型或理论的角度出发,研究本质的问题、争取原始的创新,而后将理论推广到各种应用中去,尝试解决现实问题;再从现实出发,反哺理论,设计更为全面的模型。这样良性的闭环研究真正做到了知其然、并知其所以然,使工作更为实用,也更为深刻。

这里的研究很广泛,总是鼓励多方向、多学科交叉,因为这种交叉往往最能激发思维的火花。我所从事的是推荐系统方向的研究,主要研究如何根据人们历史的行为记录,有效地预测未来行为。这其中要考虑的问题非常多,例如用户网上购物行为所呈现的规律,以及这些规律背后的理论,往往单从计算机学科角度出发是不够的,而是需要结合经济学、心理学等相关学科,才能有效理解用户的行为模式。

这里的研究有趣而又富有前瞻性,往往会有一些新的、有意思的技术,可能不能马上就能应用,但完全可以预见在不久的将来,这些技术会大放异彩。例如对于个性化关键帧推荐的研究,针对不同的视频网站用户,可以为其展示不同的海报,进而提供更为准确的摘要——真正做到千人千面!相信这一技术将会在未来的视频网站中被大规模应用。又例如,一位博士生利用统计学中的点过程模型,有效分析了用户在网上的时间序列行为,为序列建模提供了有力的工具。他们并不急于把成果应用,而是深入研究问题本身,力争彻底地分析、解释。相比之下,国内的大多数研究者则比较实际,往往不会关注短期看没有现实意义的研究。

同时,这里的研究又是扎实的。查宏远教授对科研工作的浓厚兴趣和严谨的科研作风给我留下了深刻的印象:他时刻关注每个团队成员的工作进展,及时给予指导和建议;对任何一个有意义的结果,他的表现是那样兴奋,那样着迷。这种情绪深深感染了我。同学们为了一个实验、一个数据精益求精,确保实验结果能够被复现。曾有一位师兄为了让自己的代码效率更高,尝试了十余种策略,虽然耗费了大量的时间,但最终算法效率得到了极大的提升,为使用者提供了莫大的帮助,有效推动了这个小领域的进展。我想西方国家的科研之所以领先世界,与他们科研人员的敬业精神和浓厚兴趣密不可分。当然,目前国内的发展也十分迅速,和国外的差距正在急剧缩小,我由衷希望国内的机器学习研究能更进一步、希望清华大学的科研水平日益新高。

实验室里不仅学术氛围极其浓厚,同学之间也互相帮助,友谊颇深。在这里,我结识了大牛学长许洪腾——仅博士期间就发表了数十篇一作顶级会议论文——和他讨论问题让我感到特别畅快,对我提出的问题,他总能提出有建设性的意见,甚至在模型设计、公式推导上,他都能给予我具体意见,极大地推动了我的科研进展。我还结识了同样访学的肖帅,他来自上海交大,研究方向偏理论。由于同住一个房间,我们经常一起讨论问题,最终我们发现我们的研究居然可以结合起来、提出一个新的问题。

在大家的一致努力下,我在8月中旬主导完成了一篇顶级会议论文,目前已提交审核。

  磨砺意志,坚定方向

以前经常听说,美国人很不刻苦,稍有点困难便不思进取。但来到佐治亚理工学院后,我发现事实并非如此。相反,这里的大多数学生都异常刻苦。实验室晚上灯火通明是常事,甚至有同学为了赶deadline,有时要连续工作几天几夜。

在这半年中,我感到自己的意志得到了磨练,真正为科研付出了大量的时间。一方面,我以访问学者的身份到国外进行研修,面对优良的实验条件,内心不想荒废、希望能做出满意的结果;另一方面,短短半年时间,想得到完整的结果,时间上很紧张。这就意味着我必须加班加点,充分利用有限的时间,尽可能完成科研任务。我深知,出国访学不是去享受的,而是去深造、提升的,是去学习先进技术和理论知识的。因此,在访学期间,我没有虚度时光。面对困难和孤独,我的意志得到了锻造和磨砺。

首先,我主要从三个方面扎实了自己的基础。第一,我学习了统计学知识,尤其是点过程知识。统计和机器学习密切相关,对提升理论水平十分关键。我首先学习了多元统计分析,从基础定义到具体知识点,又到实际应用,每个细节我都认真研究,并完成了相应的习题。在学习过程中,我会先把统计学知识纳入自己的知识网络,再思考这一知识点在推荐系统领域可能会有哪些应用,这样一来,对统计知识理解得很快,记忆也很牢固。点过程则是统计学的一项分支,主要研究时间序列。例如用户购买物品,往往有先后顺序,用这一工具来建模行为模式就很有效;第二,我补充了深度学习的基础知识。深度学习是最近几年才火起来的方法,旨在通过增加模型的广度和深度提升模型的性能,其核心问题在于如何设计有效的结构。在推荐系统领域,数据往往的是稀疏的,如果一味的使用深度模型,不仅不会对最终的推荐精度有所提升,反而会因为过拟合,使结果不尽人意;第三,是我学习了新型机器学习思想方面的知识,例如最新提出的teacher-student 网络、模型压缩技术等等,这些技术让我大开眼界,让我从另一个角度思考推荐系统领域的科学问题,也激发了我为推荐系统设计新的模型。

学习的过程是快乐的,每学完一个知识点,我心中都感到充实。今后,我仍然要继续这样的习惯:在科研的同时注意基础知识的补充,不断补充、不断应用,这样不仅学得牢固,也可以给当前的科研问题提供新思路。

同时,半年里,我和老师、同学多次讨论。起初,我觉得我的研究方向过于偏重应用,在学术界不好操作,后经过老师、同学的指点和帮助,终于对于推荐系统这一方向有了更为清晰的认识:首先,推荐系统是当今互联网应用最为广泛的技术之一。这使得推荐系统研究领域异常火热,从国内到国外,很多高校争相研究,能在这波热浪中,从事有意义的研究是件好事。其次,推荐问题背后的原理很深,既有计算机学科的问题,也有其他学科诸如经济学、心理学的问题,如何有效地结合多学科远不如我所想的那么简单。另外,推荐系统是很有趣的,一旦发现规律就可以立即看到成效。从KNN协同过滤到MF,背后的原理并不难,但在现实中的效果却特别好,这让我深感大道至简,简单的原理可能更加符合人们行为的建模。

   迥异文化,体会生活

初到美国的生活是充满挑战性的。我虽然接受过多年的英语教育,但是真正把英语使用到生活中却是第一次,难免会有一些不自信。最大的问题,就是难以用完整的句子表达自己,多数时候说出来的内容都是零碎的。虽然在大部分情况下,依靠零碎的内容加上肢体语言完成日常交流问题不大,但这也让我认识到,在真实的全英语环境下,我需要提高的东西还有很多。

因此,最初几个月,我尝试利用各种方法提升自己的口语和听力,比如利用课余时间听广播、看美剧等。但后来我发现,最有用的还是和真正的美国人进行对话。每天早上、晚上,我都花几刀打uber上学、回家,在车上,我会主动和司机聊天。美国人特别热情,很愿意和不同文化的人聊天。另外,我也会尽量去打美国的客服电话,比如银行卡有问题,我就会尝试给客服打电话,这样一来就有了更多机会去听美国人的发音、练习自己的口语。如此经过一个月,我明显感觉到自己已经不再需要像以前那样,先把想法从中文翻译成英文、再表达出来,而是有了一种条件反射,自然就能说出来了,这是一种质的提升。我也经常和美国同学讨论专业问题,从中练习自己的专业口语,渐渐地,我发现自己越来越自信、越来越敢说,已经能够流畅地和他们交流了。

在美国的这两个月,我英语能力的提升可能要大于自己在国内这么多年的学习。其中的经验是:一是要敢说,不怕犯错,其实美国人日常交流时并不很在意语法,很多美国人自身也有语法错误。二是要多说,能说就说,不要羞于表达以后我会继续练习自己的英语,多和国内的外国朋友聊天,进一步提升英语水平。

在生活的体验上,作为发达的资本主义国家,美国的物质极大丰富,人均资源占有量多:空调永远是开着的,超市有用不完的免费食品袋,没有收入的人能领到不菲的补给金,等等。另外,美国的服务业发达,整体上规范、诚信,加之环境保护意识很强,到处给人整洁干净之感。

相比之下,中国给人的感觉则是“热火朝天”、“大干快上”地搞经济、促发展,处在一个急速发展的过程中。过去,中国的人均资源相对缺乏,整体文明素质的确还有待提高,但中国最近几年的发展也着实让外国人刮目相看。每年都有大量留学生回国,足以说明国内的发展机会不逊于美国。

另外,我还接触了一些在美国定居的家庭的生活,给我留下深刻印象的主要有三点。首先,他们很节俭,美国人的收入不低,但在日常开支方面却是绝不铺张浪费,能够自己动手自给自足的,便不会花钱请人来做。很多人都去Goodwill之类的二手用品店里淘衣服、淘器具,买汽车也经常是买二手的,这也是美国二手车市场非常健康发达的原因吧;其次,美国人的动手能力较强。我曾见到一位大哥,他自己做家具、做生活设备,几乎没有什么是他不能做的,并且他非常沉迷于此;第三,则是健康生活。美国人对于户外活动非常重视,每个周末都会和家人集体前往森林、溪流等地去徒步,我甚至遇见有的家庭带着刚会走路的小朋友在景区内徒步登山。

 

我衷心感谢清华大学给我提供了这次出国访问的机会。半年的访学经历,在我的学术生涯中十分重要——它让我在短时间内快速成长、快速看清差距,使我倍加珍惜时间,深知要不断努力,才能和世界上的同辈们竞争,时不我待。在今后的工作中,我将会继续努力,努力在自己的领域内作出扎实的研究成果,为国家的发展贡献自己的一份力量。

 

本文来源:软件学院陈旭同学的访学总结报告

编辑:邵正隆  清华大学研究生院

           徐思羽  清华大学研究生院学生记者

登录查看更多
1

相关内容

查宏远教授现为香港中文大学(深圳)校长学勤讲座教授、数据科学学院执行院长。 查宏远教授1984年毕业于复旦大学数学系, 并于1993年获得斯坦福大学科学计算专业博士学位。查教授于2006年至2020年任职于佐治亚理工学院计算机学院,1992年至2006年任职于宾州州立大学计算机科学与工程系,他也曾于1999年至2001年任职于 Inktomi 公司。他目前的研究方向是机器学习及应用。 查教授在计算机等相关领域的主流科技期刊和顶级学术会议上发表300多篇论文,据谷歌学术统计,截止2021年04月,谷歌H-index 79,总引用率超25100次。曾荣获多项重要学术奖项,如 Institute of Mathematics and Applications(IMA)授予的“莱斯利福克斯奖(Leslie Fox Prize)”二等奖(1991年),第34届ACM SIGIR国际信息检索会议(SIGIR 2011)最佳学生论文奖(指导教授)(2011年),第26届NeurIPS“最佳论文奖” (2013年)。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
90+阅读 · 2020年6月28日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
212+阅读 · 2020年2月21日
【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授
【CAAI 2019】自然语言与理解,苏州大学| 周国栋教授
专知会员服务
62+阅读 · 2019年12月1日
【访学归来】胡黎俐:苏黎世联邦理工教会我匠人精神
清华大学研究生教育
8+阅读 · 2019年8月17日
麻省理工(MIT):高校学科划分是人类自缢的绳索
人工智能学家
4+阅读 · 2018年9月6日
清研实践|清华深研院师生赴澳洲墨尔本六所高校开展数据科学访问
【学界】实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN
GAN生成式对抗网络
14+阅读 · 2018年6月20日
蔡志忠:我不同意三个臭皮匠顶一个诸葛亮
笔记侠
3+阅读 · 2017年11月30日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
8+阅读 · 2018年2月23日
Arxiv
4+阅读 · 2018年1月19日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员