深度强化学习(Deep Reinforcement Learning)是将深度学习与强化学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。举例来理解,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作。
整个过程,就是一个连续决策的过程,其特点是不给任何数据做标注,仅仅提供一个回报函数,这个回报函数决定当前状态得到什么样的结果(比如“好”还是“坏”),强化学习最终目的是让决策过程中整体的回报函数期望最优,深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。
虽然说,深度强化学习可以从零开始,但是毕竟这还是深度学习中的最前沿的算法,为了更好的理解,大家还是要具备一些基本基础:
数学基础:线性代数基础和概率论基础;
编程基础:Python编程基础,后面的代码实现可以基于Tensorflow实现。
由于深度强化学习的样本是一个时间序列,要将增强学习的问题模型化,就必须掌握MDP(Markov Decision Process)马尔科夫决策过程。
在引出了MDP之后,由于每一个时刻的状态是确定的,我们可以用Value Function价值函数来描述这个状态的价值,从而确定我们的决策方式。
因为需要估算Value Function,找出最优决策,引入Bellman方程是最好的办法。
还有Value Iteration (价值迭代)、Q Learning等学习的内容,都需要完成学习。
斯达克学院(StuQ)携手AI教研室共同为大家打造一系列深度强化学习公开课,第一讲内容我们邀请到香港理工大学计算机系博士—Traffas为大家进行分享,我们会用一个小时的时间来带领大家理解什么是深度强化学习,培养解决大家的解决问题思路,知道什么问题需要强化学习的算法求解,透彻细致的讲解Q算法的机制,详见海报。
扫描海报中二维码,添加小助手,获取听课地址~
本课程由StuQ与AI教研室(公众号AI_classroom) 联合推出。AI教研室是由中国科学院自动化研究所人工智能研究科学家和美国房地产金融巨头 “两房”之一的房地美资深数据科学家联合创办的,旨在提供优质人工智能教学和咨询服务。团队成员,包括来自麻省理工、香港科技大学、北京邮电大学、中科院等的博士、博士后,在机器学习、深度学习、强化学习等领域有着深厚的技术积累。
— End —
想获取更多免费学习资料,每周参加优质的免费公开课?赶快扫码关注“StuQ”公众号吧!
部分图片来源:网络