强化学习应用介绍，41页报告带你快速了解RL的最新应用价值

会员服务 ·

强化学习应用介绍，41页报告带你快速了解RL的最新应用价值

2019 年 8 月 28 日 专知

【导读】AlphaGo的出现，消除了人们对人工智能的悲观看法，由此也促进了强化学习的发展，本文为大家编译了来自李玉喜老师的强化学习介绍，从多个领域剖析强化学习的应用价值。

原文链接：

https://arxiv.org/abs/1908.06973v1

介绍：

强化学习在日常生活的实际应用中扮演越来越重要的角色。目前，我们已经见证了强化学习在一些领域中的应用，诸如推荐系统、广告，也许还有金融领域。我们将看到强化学习在未来几年甚至更久的时间里在如下领域中的蓬勃发展。

1 推荐系统

推荐系统可以根据用户的喜好向用户推荐产品、服务、信息等。通过个性化推荐，比如向用户推荐新闻、电影、音乐、餐馆等，缓解信息过载的问题。

在以用户为中心的推荐系统中，使用自然、不冲突、透明的用户交互行为，理解并满足用户真正的需求和喜好是非常重要的。推荐系统需要评估、引出和影响用户的潜在状态，如满意度、持续的喜好、需求、兴趣、活动模式等，通过与用户的自然互动，并以用户的最大利益为出发点。强化学习将在这些方面发挥核心作用。

面向用户的强化学习面临以下问题：1）大规模的用户和交互行为，多种类用户，组合行为空间。2）交互行为的本质，像随机交互行为集合等。3）用户的潜在状态，导致高度的不可观测性和随机性。偏好，活动，个性，用户学习，外在因素，行为效应等都会提升推荐的效果，降低信噪比。4）生态系统效应，例如激励，生态系统动态，公平等。

2 计算机系统

计算机系统中的许多问题都与顺序决策有关，而手工设计则是常用的相关策略。强化学习是一种能够自动优化此类策略的方法。

近年来，深度学习在图像处理、语音处理和自然语言处理方面取得了显著的进展。如何设计神经网络体系结构已经成为了一个关键的问题。神经架构搜索就是一种基于强化学习的方法。在神经架构搜索中，RNN网络通常被用来生成神经网络描述，并经过训练，以最大限度地提高强化学习在验证数据集上的精度。

3 能源

数据中心在IT时代得到了广泛的应用，尤其是在大数据和人工智能普及之后。冷却对于数据中心的基础设施来说是必不可少的，它可以降低温度，减少热量，从而提高设备性能，降低设备损坏的可能性。目前有一些难点，比如意外事故、安全约束、有限的数据和潜在的代价昂贵的故障。强化学习是冷却数据中心的一种方法。

4 健康

AI在健康领域有许多机会和挑战，尤其是对于强化学习来说。当我们把强化学习应用到健康领域，我们需要考虑以下几个准则：首先，强化学习算法需要接触所有能够影响决策的信息。临床信息对于强化算法是很重要的。第二，有效样本量与学习策略和临床策略之间的密切程度相关; 策略越接近，有效样本量就越大。第三，要想实现良好的预测效果，必须对所学习的策略进行反思。

5 运输系统

滴滴出行、优步等在线叫车服务正在极大地改变着人们的交通方式，交通效率提升潜力巨大。拼车服务中的需求预测、路线规划和车辆管理等关键任务之一就是司机-乘客订单调度。它在调度过程中需要考虑空间范围和时间的动态变化，决定是否将可用的司机分配给附近有需求的乘客。交通运输系统与每个人密切相关，而强化学习能够提高其效率和降低运输花费。分层强化学习是一种知识表示方法，能够在多个层次进行实践抽象，并且学习和进行规划。