强化学习博士毕业吃香吗?Reddit网友寻求职业规划建议

2022 年 2 月 25 日 新智元



  新智元报道  

编辑:桃子 拉燕

【新智元导读】强化学习的博士生该如何做职业规划?


近日,一位即将硕士毕业的网友寻求网友的帮助,「主修强化学习领域的博士在毕业后有什么职业前景?」
 
 
这位网友介绍道,自己正在写一篇关于层次化的深度强化学习(RL)硕士论文,并表示这是自己在人工智能领域发现的一个非常有趣和有前途的主题。
 
然而,强化学习领域的就业机会并没有深度学习的多,同时它需要更多的研究来用在许多实际的案例中。
 
目前,网友表示自己已经收到了2所大学博士学位的offer,一个是关于使用深度学习技术的RL领域,另一个也与深度学习有关,比如时间序列和计算机视觉。
 
网友表示自己对深度学习的喜欢程度一般,并表示自己在任何关于深度学习类型的问题上不会遇到难题。
 
此外,他还比较喜欢研究工作,并且更喜欢在私营公司工作,因为想看看自己的工作如何能够应用到现实生活中。  
尽管我更喜欢与RL相关的博士课程,你认为哪个课程更符合我的期望? 


DL和RL


首先,我们先搞清楚深度学习和强化学习分别是什么?
 
深度学习是通过大量数据来训练计算以定位模式,然后使用该模式对新信息进行预测。
 
 
比如训练深度学习算法来识别照片上的猫,可以通过数据投喂数百万张包含或不包含猫的图像。
 
然后,程序将通过分类和聚类图像信息来设置图案。这些图案将通知一个预测模型,该模型可以根据一组新的图片进行检查,并根据使用训练数据创建的设计来预测它们是否包含猫。
 
 
强化学习是一种自主的,自我教学的系统,基本上是通过反复试验来学习的,更像是人类个体学习新事物的过程。
 
就拿小时候学习骑自行车这件事来讲,摔倒后,你会慢慢积累发现有效的方法。
 
强化学习同是如此,它执行任务的目的是优化奖励,换句话说,它是通过学习来实现最佳结果。
 
可以说,深度学习和强化学习是学习的两个系统。
 
同时,深度学习和强化学习并非相互排斥,就比如深度强化学习就是深度学习和强化学习结合的产物。

网友献策


就这位Reddit网友的迷茫,很多网友也给出了自己的建议。
 
「读博士要花的时间挺久的...虽然你没说你在哪个学校读,但怎么都得至少三年。甚至还得更长时间。我当年读博花了七年!还有你不能用现在找工作的行情来推测你读完博之后的。这几年越来越多研究生涌入这个领域,这个领域的门槛会越来越低。
 
五年之后,同样的一个计算机视觉专家就没那么厉害了,因为这个领域可能已经商品化了,然而强化学习会在那时有较大的发展。(你就看看Deepmind这五年有多少突破吧...如果最后这个领域转向工业化我可一点都不会奇怪。)
 
另一个问题是,你读的大学好不好,你和你的导师处的怎么样。如果可以的话,一定要选一个好的导师(虽然你可能缺少相关信息)。一所知名大学可以让你在读博期间取得不一般的成绩。所以如果你很关心你未来的工作前景,那读一所知名学校会很关键。
 
但总的来说,读博是一段漫长的旅程,肯定会很艰难。所以我是你的话,我会好好挑选一个感兴趣的课题,因为你要成为那个领域的专家的。」
 
 
「拿到博士学位。然后去一个有研究基础的职位。」
 
 
「读哪个领域的博士呢?强化学习的吗?另外,如果有必要的话,转到别的领域容易吗?」
 
「如果你的兴趣点更宽泛一点,我推荐你读视觉方面的博士,这样你能有更丰富的经验。」
 
 
「事实是,我对强化学习基本一无所知...我是边写我的硕士论文边对强化学习有个更深入的了解。」
 
「这样的话...我推荐你读强化学习的博士。因为当你在一个领域成为专家以后,你再去接触别的你感兴趣的领域你就会更加自信。我当时硕博连读的就是强化学习专业,所以我跟你说的建议也是我自己想要做的。」
 
 
「就找工作来说的话,强化学习不是比time series和CV更小众吗?」
 
 
「去读你感兴趣的专业的博士吧。没有人会为了你博士做的课题为难你。另外,时刻记住,深度学习有点被过度宣传了。这也就是为什么深度学习相关的工作铺天盖地...别让这种潮流阻碍了你真正想去学的东西。」
 
 

参考资料:

https://www.reddit.com/r/MachineLearning/comments/sxpo89/d_advice_on_career_paths_after_a_phd_in_rl/


登录查看更多
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
129+阅读 · 2020年8月27日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
71+阅读 · 2020年3月22日
【强化学习】深度强化学习初学者指南
专知会员服务
180+阅读 · 2019年12月14日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
吴恩达最新问答:深度学习泡沫何时会破?
德先生
19+阅读 · 2017年11月22日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Arxiv
2+阅读 · 2022年4月17日
Arxiv
24+阅读 · 2021年1月25日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员