清华学霸终极追求竟不是科研:打造影响力才能生生不息 | 专访

2020 年 7 月 31 日 学术头条


由于新冠全球大流行,许多原计划赴美的人们近期难以获得签证。但我们注意到,关于使馆签证预约情况和预约心得已经有大触帮我们收集好了,详情可以访问https://tuixue.online/visa/。
 
这个网站的创建者,正是一名原计划今秋赴美国卡耐基梅隆大学攻读硕士学位的学生。他在
今夏毕业于清华大学计算机系 ,名叫 翁家翌
 
若你曾关注过计算机或是强化学习领域,可能对这个名字有些熟悉。没错,
他正是用 1500 行代码从头开发天授[1]强化学习平台的翁家翌。

图 翁家翌(图片来源:翁家翌)


翁家翌回忆这段经历的时候提到,“天授”这个项目是他的毕业设计。选择这个项目一方面是为了能与之后的方向衔接,另一方面是,他认为做平台这样类似基础设施建设的项目很容易获得影响力,因此值得做。
 
于是,考虑到毕业的刚需,以及这个项目本身的价值,
翁家翌同学“花了十几天”把结合速度和轻量于一体的“天授”强化学习平台写完了。
 
若你对这位十几天从头写“天授”的同学感到好奇,很巧我们也是。所以我们和这位同学交流了一下,听取了一些他的人生经验。

从竞赛转高考:其实好像也没什么转折


翁家翌同学在读高中时,期待着通过全国青少年信息学奥林匹克竞赛(NOI)获奖,获得心仪学校的优惠录取条件。这样的目标对他来说只是要求他能在竞赛中正常发挥。
 
但是,事情并不总是如计划那样发展。由于粗心失误,翁家翌同学的竞赛之路在最后阶段折戟了。
 
提到竞赛,翁家翌同学觉得也有些运气成分。在他参加的 2015 年信息学竞赛中,题目偏温和,与往年相比区分度较低,因此他在细节上的粗心失误就造成了十分严重的后果。
 
不过,在我们和翁家翌同学说到这段经历是否让自己有什么感触时,他的回答是,“暑假就开始写作业。”
 
所以实际上,翁家翌同学在高二暑假并没有什么时间感到遗憾,有的只是为高考全力以赴。
 
由于之前把主要精力放在竞赛上,翁家翌的基础其实并不好,在高三开学第一次考试中年级排名是 233/600 名,“按这种成绩在去年连隔壁福大都进不了”,翁家翌说。
 
不过经过一年的努力,翁家翌的高考成绩排在福建省 210 名。
 

回忆起这一年,翁家翌觉得,“其实高考并没有传说中的那么可怕,就是天天睡了吃,吃完刷题,刷完题睡觉”。竞赛考不好似乎也没什么,“人生中还是有很多道路可以选择的,关键在于你自己的努力。”


清华四年:从大一课程项目就发论文到不想做科研

翁家翌同学的科研经历可以一直上溯到他在大一下学期选的面向对象程序设计课上。他在课程期末作业中,与同学一起组队,通过基于规则的逃逸路线方法,帮助寻找药物样品递送的最佳路由解决方案,且这一方法比先前基于网络流的方法快 600 到 34 万倍。其中,翁家翌同学主要负责算法设计。
 
这项课程作业获得了当时的授课老师姚海龙教授的称赞和鼓励,相关工作目前已在 IEEE TCAD 期刊(CCF A)上发表[2]。
 
不过,
翁家翌同学觉得这段“科研”经历不怎么值得一提。一方面是他认为这个项目实际上算不上有挑战性,他只是借用了在信息学竞赛中遇到类似问题的解题思路;另一方面,他觉得在日新月异的计算机领域,发表期刊论文审稿周期有些漫长,对于初入科研的萌新来说有点消磨自己的科研热情。
 
但翁家翌同学对科研的兴趣实际上并未减退。在大二时,翁家翌同学想要参加 “学术新星培育计划”。“学术新星培育计划”是清华大学计算机系针对大二、大三学有余力的本科生实施的因材施教培养计划,入选计划的本科生将进入实验室在导师的指导下参与课题组研究,并获得参加学术会议、暑期学校、课外科技竞赛、科研创业等学术科研活动的经费支持。
 
不过在选研究方向的时候,翁家翌同学遇到了问题。
 
“我当时比较喜欢的三个方向主要是图形学,网络安全和人工智能。” 翁家翌说。不过,他喜欢的做图形学的老师没在这个计划的名单里面,计划名单中也没有做网络安全方向的老师,于是就只能选择人工智能方向了。
 
但实际上回忆一下,翁家翌同学觉得自己的动机比较肤浅,对图形学感兴趣是觉得一些电影渲染特效十分炫酷,并且在高中信息学竞赛的时候最喜欢写计算几何题目的代码;对网络安全感兴趣是觉得做个黑客很酷,对人工智能感兴趣则是在高一的时候因为社团展示需要,
曾写过一个能玩 2048 的 AI,觉得很有意思。
 
这些猎奇心理实际上在他本科的日常生活中获得了满足,比如做一个炫酷的黑客,
“调戏”学校的网络[3]。


(图片来源:翁家翌)

通常情况下,清华大学的学生成绩查询是在假期开始一段时间后才向学生开放的。所以一些学生为了实时看到自己的成绩,会使用一些非官方技巧。其中一种方法是,在打印电子成绩单的预览界面可以看到自己的实时成绩。
 
学校相关部门也很快意识到了问题,于是将预览界面进行打码。所以,想要看到实时成绩的学生就只能花 10 元钱将成绩单打印出来,才能看到无码高清版本的实时成绩。这样,学生们觉得为了早些查成绩花 10 块钱有些不值,校方对此情况基本满意。
 
但翁家翌同学在寒假的时候,不经意间发现了一个细节:电子成绩单的支付金额是前端传入的。也就是说,同学们可以在创建订单时将支付金额直接修改(如修改成 0.01 元),这样成功支付一分钱,同学们就可以看到自己的实时成绩了。
 
这项漏洞在他上报之后,学校的相关部门对此进行了及时的修复。翁家翌同学也成为学校信息化中心学生组织的一员。
 
除了成为坊间传说,翁家翌同学的科研“主业”,在外人眼里看来似乎也算进展顺利。在 2018 年,他所在的团队获得了第三届 VizDoom AI 竞赛[4]冠军,他是团队中的核心成员之一。之后在大三暑假,
他参与了加拿大蒙特利尔学习算法研究所 Yoshua Bengio 教授的课题研究,Yoshua Bengio 教授曾在 2018 年获图灵奖。
 
可翁家翌同学回忆起这些经历的感觉是,每段科研经历都不是同一个方向,而且他对每段科研经历都算不上满意。
 
在 VizDoom AI 竞赛中,翁家翌所在的团队提出了一种分层强化学习架构,在游戏中可以对环境进行感知和学习。
 
“我们最后勉强拿了冠军。” 他认为他们的算法在实现的时候有些部分和标准接口存在出入,但他们认为这是由于组委会对相关细节没有解释清楚。另外,翁家翌原本期待这个项目能够发表论文,但在花费了一番功夫之后,论文却遭到拒稿。虽然后续论文修改之后,转投了其他会议并最终发表[5],但这段体验让翁家翌同学感到有些不顺。


图 翁家翌和图灵奖得主Yoshua Bengio教授合影(图片来源:翁家翌)

而翁家翌在和图灵奖得主 Yoshua Bengio 教授从事暑期科研时,涉及了一个自然语言处理和强化学习结合的课题。“觉得这个跨度有点大。” 翁家翌说。其实他本人对自然语言处理不算十分感兴趣,他也对自己在这段经历中的表现不满意。
 
三段科研经历接触了三个不同的方向,让翁家翌同学对科研产生了一丝倦怠。但是他认为自己是一个更偏向工程思维的人:对调参数、开拓新课题等一些不怎么感兴趣的东西自己不会有自我驱动力,而对搭建流程框架则是热情满满。


从搞AI到搞平台:打造影响力才能生生不息

说到影响力,翁家翌同学想到了一句俗话:“淘金不如卖铲子”。具体来说,他更想做一些能够让更多人受益的事情。
 
其实他的这个想法,是在完成了“天授”平台重写和签证信息分享平台之后重拾成就感才明白的。
 
“如果当一个码农的话,最大的成就莫过于自己写的代码被更多的人、更多的系统使用。这也是开源社区生生不息的原因之一。” 翁家翌说。
 
在他回忆有没有在清华留下未完成的遗憾时,他表示,一些太看重 GPA 的人,可能会因此失去自我,而根本没有想清楚自己究竟想要的是什么。“有些人就这样人云亦云地保研/出国读 PhD,但是,他们真的想专心学术吗?他们真的适合学术吗?他们没想过。”
 
所以,在经历过不同方向上的科研项目尝试后,他发现
还是更喜欢那个爱搞事情的自己 。那个在毕设中拒绝其他课题提议坚持要重写天授的自己,和那个搭建出访问量两个月突破 200 万的美国签证记录网站的自己。这些事不仅让他感受到了自我价值的实现,也为他自己提供了更好的视野。
 
因为只有这样才能尽可能的多经历,
去寻找自己真正想要做什么 [6]。
 
当然,“搞事情”也并非一时兴起。除了上面提到的一分钱打印成绩单,他还有很多类似的小故事,而这些小故事往往是最初,翁家翌同学观察到生活中的一些细节,发现了其中的潜在需求,于是顺着这条思路,找到满足需求的解决方案,而且提出的解决方案真切地帮助了有需求的人群。

 
这些经历在他的成长过程中逐渐让他体会到,虽然自己领悟能力比较强,比较擅长学习新知识,但自己想要的成就感并非源自于施展这方面的天赋获得传统意义上的学术成功。他更喜欢的是对生活中细节的观察和思考,同时他还有强大的动手能力,能够很快提供出问题的解决方案。
 

这是一种更加注重需求和实践的工程思维:若只是框在知识积累范畴,就像是囤积了大量财富但从不将财富转化为购买力,即使是发现了新的金库,若是不能动它,财富的价值仍旧无法体现。当然,理学思维和工程学思维是相辅相成的,只有扎实的知识积累才能在遇到具体问题时快速形成思路,也因此能够获得更高的成就感。


后记

 

虽然一手创建了签证信息交流平台,但翁家翌同学本人的签证目前还没着落。
 
在问到未来怎么办时,他说打算在家上网课。“这个硕士可能更主要给我提供了一些 social 的机会,比如认识更多优秀的同学、以及向国外的一些公司学习先进技术。” 翁家翌说。
 

但实际上,在毕业前夕,翁家翌同学曾有着延期一年的想法,尝试向若干大厂的实习项目投递简历,已经进行了一轮“面试练习”。这次“搞事情”的收获是一份让面试官觉得“在清北里面都算少见”的简历,和只想打一年短工的心态导致的各家大厂“全聚德”,并被前辈教育道“不要浪费时间实习”。[7]
 
所以,“只好上学去了。” 翁家翌说。
 
那就祝福这位少年,未来能在更宽广的平台上,看到更值得做的事。
 
 
参考:
 
[1] https://github.com/thu-ml/tianshou
[2] J. Weng, T. Ho, W. Ji, P. Liu, M. Bao and H. Yao, "URBER: Ultrafast Rule-Based Escape Routing Method for Large-Scale Sample Delivery Biochips," in IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, vol. 39, no. 1, pp. 157-170, Jan. 2020.
[3] https://twd2.me/archives/11513
[4] https://www.crowdai.org/challenges/vizdoom-2018
[5] S. Song, J. Weng, H. Su, D. Yan, H. Zou, and J. Zhu, "Playing FPS Games With Environment-Aware Hierarchical Reinforcement Learning." In IJCAI, pp. 3475-3482. 2019.
[6] https://zhang-ming-rui.gitbook.io/when-rocket-goes-up/er-da-xue-chu-qi/jiao_liu_suo_ji_er_2014_2014_deng_jun_hui_lao_shi

[7] https://www.zhihu.com/question/370957302/answer/1192331407


想要了解更多学术进展、前沿科技资讯,参与学术头条每日话题讨论,可以扫描二维码或搜索AMiner308添加学术君微信,对学术君说: “我想进读者群”, 即可进入读者群,不定期发福利~

点击 阅读原文 ,查看更多精彩!
喜欢本篇内容,请 分享、点赞、在看
登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
一图搞定ML!2020版机器学习技术路线图,35页ppt
专知会员服务
94+阅读 · 2020年7月28日
专知会员服务
147+阅读 · 2020年6月15日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
周志华教授:如何做研究与写论文?
专知会员服务
155+阅读 · 2019年10月9日
离开清华的99种方式 | 刘维特:去央行,从随口说说到梦想成真
清华大学研究生教育
26+阅读 · 2019年6月21日
教辅巨头沉浮录(1978-2018)
创业家
3+阅读 · 2019年1月8日
年薪48万的程序员,他究竟做对了什么?
机器学习算法与Python学习
7+阅读 · 2018年12月28日
这是一个转型AI的励志故事,从非科班到拿下竞赛一等奖
秒杀99%大学生!中国最牛高校学霸PK,简历吓坏网友...
人工智能机器人联盟
7+阅读 · 2017年11月12日
Arxiv
8+阅读 · 2020年8月30日
Arxiv
4+阅读 · 2018年10月5日
VIP会员
Top
微信扫码咨询专知VIP会员