《深度强化学习》面试题汇总

2019 年 9 月 25 日 深度强化学习实验室
深度强化学习报道

来源:Blog(AemaH,苏克)

编辑:DeepRL



不知不觉中求职季已经进行了很长时间,算法岗位的招聘可以说是非常火爆,但目前强化学习的面试题目相对来说比较少,本文整理了大约50多道题目,仅供大家自测,也欢迎总结和贡献答案!

1. 什么是强化学习?

2. 强化学习和监督学习、无监督学习的区别是什么?

3. 强化学习适合解决什么样子的问题?

4. 强化学习的损失函数(loss function)是什么?和深度学习的损失函数有何关系?

5. POMDP是什么?马尔科夫过程是什么?马尔科夫决策过程是什么?里面的“马尔科夫”体现了什么性质?

6. 贝尔曼方程的具体数学表达式是什么?

7. 最优值函数和最优策略为什么等价?

8.  值迭代和策略迭代的区别?

9. 如果不满足马尔科夫性怎么办?当前时刻的状态和它之前很多很多个状态都有关之间关系?

10. 求解马尔科夫决策过程都有哪些方法?有模型用什么方法?动态规划是怎么回事?

11. 简述动态规划(DP)算法?

12. 简述蒙特卡罗估计值函数(MC)算法。

13. 简述时间差分(TD)算法。

14. 简述动态规划、蒙特卡洛和时间差分的对比(共同点和不同点)

15. MC和TD分别是无偏估计吗?

16. MC、TD谁的方差大,为什么?

17. 简述on-policy和off-policy的区别

18. 简述Q-Learning,写出其Q(s,a)更新公式。它是on-policy还是off-policy,为什么?

19. 写出用第n步的值函数更新当前值函数的公式(1-step,2-step,n-step的意思)。当n的取值变大时,期望和方差分别变大、变小?

20. TD(λ)方法:当λ=0时实际上与哪种方法等价,λ=1呢?

21. 写出蒙特卡洛、TD和TD(λ)这三种方法更新值函数的公式?

22. value-based和policy-based的区别是什么?


23. DQN的两个关键trick分别是什么?

24. 阐述目标网络和experience replay的作用?

25. 手工推导策略梯度过程?

26. 描述随机策略和确定性策略的特点?

27. 不打破数据相关性,神经网络的训练效果为什么就不好?

28. 画出DQN玩Flappy Bird的流程图。在这个游戏中,状态是什么,状态是怎么转移的?奖赏函数如何设计,有没有奖赏延迟问题?

29. DQN都有哪些变种?引入状态奖励的是哪种?

30. 简述double DQN原理?

31. 策略梯度方法中基线baseline如何确定?


32. 什么是DDPG,并画出DDPG框架结构图?

33. Actor-Critic两者的区别是什么?

34. actor-critic框架中的critic起了什么作用?

35. DDPG是on-policy还是off-policy,为什么?

36. 是否了解过D4PG算法?简述其过程


37. 简述A3C算法?A3C是on-policy还是off-policy,为什么?

38. A3C算法是如何异步更新的?是否能够阐述GA3C和A3C的区别?

39. 简述A3C的优势函数?


40. 什么是重要性采样?

41. 为什么TRPO能保证新策略的回报函数单调不减?

42. TRPO是如何通过优化方法使每个局部点找到让损失函数非增的最优步长来解决学习率的问题;

43. 如何理解利用平均KL散度代替最大KL散度?

44. 简述PPO算法?与TRPO算法有何关系?

45. 简述DPPO和PPO的关系?


46. 强化学习如何用在推荐系统中?

47. 推荐场景中奖赏函数如何设计?

48. 场景中状态是什么,当前状态怎么转移到下一状态?

49. 自动驾驶和机器人的场景如何建模成强化学习问题?MDP各元素对应真实场景中的哪些变量?

50. 强化学习需要大量数据,如何生成或采集到这些数据?

51. 是否用某种DRL算法玩过Torcs游戏?具体怎么解决?

52. 是否了解过奖励函数的设置(reward shaping)?




本文同时将题目同步在Github,欢迎各位pull request最优秀的答案!文末会一一致谢各位贡献者,也欢迎大家群内讨论!


https://github.com/NeuronDance/DeepRL/blob/master/DRL-Interviews/drl-interview.md


关于招聘信息请查看底部《往期精彩》第一条信息



致谢:本文(下两链接)参考AemaH和苏克博客整理而来,在此表示感谢!

https://zhuanlan.zhihu.com/p/33133828

https://aemah.github.io/2018/11/07/RL_interview/



深度强化学习实验室

算法、框架、资料、前沿信息等


GitHub仓库

https://github.com/NeuronDance/DeepRL

欢迎Fork,Star,Pull Request


微信交流群助手:

NeuronDance



往期精彩回顾

第1篇:《深度强化学习》招聘汇总(13家企业)

2篇解决强化学习反馈稀疏问题之HER方法原理及代码实现

第3篇:"DeepRacer" ——顶级深度强化学习挑战赛

第4篇:AI领域:如何做优秀研究并写高水平论文?

第5篇: DeepMind默默开源三大新框架,深度强化学习落地希望再现!
第6篇: 【重磅】61篇NIPS2019深度强化学习论文及部分解读
第7篇: 深度强化学习框架-OpenSpiel(DeepMind开源28种DRL环境+24种DRL算法实现)
第8篇: 基于模块化和快速原型设计的Huskarl深度强化学习框架
第9篇: DRL在Unity自行车环境中配置与实践
第10篇: 解读72篇DeepMind深度强化学习论文
第11篇: 《AutoML》:一份自动化调参的指导
第12篇: ReinforceJS库(动态展示DP、TD、DQN算法运行过程)
第13篇: 过去10年NIPS顶会强化学习论文(100多篇)汇总(2008-2018年)
第14篇: ICML2019-深度强化学习文章汇总
第15篇: DRL在阿里巴巴推荐系统的应用---《深度强化学习在阿里巴巴的技术演进与业务创新》
第16篇: 深度强化学习十大原则
第17篇: “超参数”与“网络结构”自动化设置方法---DeepHyper
第18篇: 深度强化学习的加速方法
第19篇: 深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析


登录查看更多
1

相关内容

【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
208+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
276+阅读 · 2020年4月19日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
107+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
MIT新书《强化学习与最优控制》
专知会员服务
279+阅读 · 2019年10月9日
专知会员服务
211+阅读 · 2019年8月30日
面经 | 算法工程师面试题汇总
极市平台
12+阅读 · 2019年10月14日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
28+阅读 · 2018年8月17日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
4+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关VIP内容
【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
208+阅读 · 2020年5月22日
《强化学习》简介小册,24页pdf
专知会员服务
276+阅读 · 2020年4月19日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
107+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
2019必读的十大深度强化学习论文
专知会员服务
59+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
MIT新书《强化学习与最优控制》
专知会员服务
279+阅读 · 2019年10月9日
专知会员服务
211+阅读 · 2019年8月30日
相关资讯
面经 | 算法工程师面试题汇总
极市平台
12+阅读 · 2019年10月14日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
28+阅读 · 2018年8月17日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Arxiv
4+阅读 · 2018年10月5日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年6月5日
Arxiv
11+阅读 · 2018年4月25日
Arxiv
3+阅读 · 2018年1月31日
Top
微信扫码咨询专知VIP会员