【强化学习】淘宝：3万字介绍强化学习在电商环境下的若干应用与研究

2018 年 1 月 8 日 产业智能官 超脑智能

背景

随着搜索技术的持续发展，我们已经逐渐意识到监督学习算法在搜索场景的局限性：

搜索场景中，只有被当前投放策略排到前面的商品，才会获得曝光机会，从而形成监督学习的正负样本，而曝光出来的商品，只占总的召回商品中的很小一部分，训练样本是高度受当前模型的bias影响的。
监督学习的损失函数，和业务关注的指标之间，存在着不一致性
用户的搜索、点击、购买行为，是一个连续的序列决策过程，监督模型无法对这个过程进行建模，无法优化长期累积奖赏。

与此同时，强化学习的深度学习化，以及以Atari游戏和围棋游戏为代表的应用在近几年得到了空前的发展，使得我们开始着眼于这项古老而又时尚的技术，并以此为一条重要的技术发展路线，陆陆续续地在多个业务和场景，进行了强化学习建模，取得了一些初步成果，相关的工作已经在整理发表中。同时我们也深知，目前强化学习的算法理论上限和工业界中大规模噪声数据之间，还存在着很大的gap，需要有更多的智慧去填补。

基于强化学习的实时搜索排序调控

背景

淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应，而淘宝的用户不仅数量巨大，其行为特点以及对商品的偏好也具有丰富性和多样性。因此，要让搜索引擎对不同特点的用户作出针对性的排序，并以此带动搜索引导的成交提升，是一个极具挑战性的问题。传统的Learning to Rank（LTR）方法主要是在商品维度进行学习，根据商品的点击、成交数据构造学习样本，回归出排序权重。尽管Contextual LTR方法可以根据用户的上下文信息对不同的用户给出不同的排序结果，但它没有考虑到用户搜索商品是一连续的过程。这一连续过程的不同阶段之间不是孤立的，而是有着紧密的联系。换句话说，用户最终选择购买或不够买商品，不是由某一次排序所决定，而是一连串搜索排序的结果。

实际上，如果把搜索引擎看作智能体（Agent）、把用户看做环境（Environment），则商品的搜索问题可以被视为典型的顺序决策问题（Sequential Decision-making Problem）：（1）在用户每一次请求PV时，Agent做出相应的排序决策，将商品展示给用户；（2）用户根据Agent的排序结果，给出点击、翻页等反馈信号；（3）Agent接收反馈信号，在新的PV请求时做出新的排序决策；（4）这样的过程将一直持续下去，直到用户购买商品或者退出搜索。以前向视角（Forward View）来看，用户在每个PV中的上下文状态与之前所有PV中的上下文状态和Agent的行为有着必然因果关系，同一个PV中Agent采取的不同排序策略将使得搜索过程朝不同的方向演进；反过来，以后向视角（Backward View）来看，在遇到相同的上下文状态时，Agent就可以根据历史演进的结果对排序策略进行调整，将用户引导到更有利于成交的PV中去。Agent每一次策略的选择可以看成一次试错（Trial-and-Error），在这种反复不断地试错过程中，Agent将逐步学习到最优的排序策略。而这种在与环境交互的过程中进行试错的学习，正是强化学习（Reinforcement Learning，RL）的根本思想。

强化学习最早可以追溯到巴甫洛夫的条件反射实验，它从动物行为研究和优化控制两个领域独立发展，最终经Bellman之手将其抽象为马尔可夫决策过程（Markov Decision Process，MDP）问题而完成形式化。对于环境反馈的有利奖赏，Agent将强化引发这种奖赏的动作，并在以后与环境交互的过程中更偏向于执行该动作。我们尝试将强化学习方法引入商品的搜索排序中，以优化用户在整个搜索过程中的收益为目标，根据用户实时行为反馈进行学习，实现商品排序的实时调控。

图1比较直观地展示了的用强化学习来优化搜索排序的过程。如图所示，在三次PV请求之间，Agent做出了两次排序决策（α₁和α₂），从而引导了两次PV展示。从效果上来看，α₁对应PV中并没有发生商品点击，而α₂对应PV上发生了3次商品点击。如果将商品点击看成是对排序策略的反馈信号，那么Agent第二次执行的排序策略α₂将得到正向的强化激励，而其第一次排序策略α₁得到的激励为零。本文接下来的内容将对我们具体的方案进行详细介绍。

搜索的序列决策模型

问题建模

强化学习简介

状态定义

奖赏函数设定

算法设计

策略函数

策略逼近（Policy Approximation）方法是解决连续状态/动作空间问题的有效方法之一。其主要思想和值函数估计方法类似，即用参数化的函数对策略进行表达，通过优化参数来完成策略的学习。通常，这种参数化的策略函数被称为Actor。我们采用确定性策略梯度算法（Deterministic Policy Gradient，DPG）算法来进行排序的实时调控优化。在该算法中，Actor的输出是一个确定性的策略（即某个动作），而非一个随机策略（即动作的概率分布）。对于连续动作空间问题，确定性策略函数反而让策略改进（Policy Improvement）变得更加方便了，因为贪心求最优动作可以直接由函数输出。

策略梯度

值函数的学习

奖赏塑形

实际上，我们所采用的奖赏塑形方法来自于LTR方法的启发。LTR方法的有效性在于它能够利用商品维度的信息来进行学习，其最终学习到的排序权重和商品特征有直接相关性。我们通过把商品的特征灌注到奖赏函数中，能让Agent的动作在具体商品上产生的影响得到刻画，因此也就能更好地在数值信号上将不同的动作区分开来。另外，与以往的奖赏塑形方法不同的是，我们采用的势函数是随着策略的学习变化的，它让Reward和Action之间产生了相互作用：Action的计算将朝着最大化Reward的方向进行，而Action的生效投放也反过来影响了Reward的产生。因此，学习算法实际上是在非独立同分布的数据上进行训练的，我们将在最后一章对该问题进行探讨。

实验效果

可以看到，从11月10日18:00启动开始，每个桶上的RNEU开始逐渐下降。到当天20:00之后，下降趋势变得比较缓和，说明学习算法在逐步往最优策略进行逼近。但过了11月11日0点之后，每个桶对应的RNEU指标都出现了陡然上升的情况，这是因为0点前后用户的行为发生了急剧变化，导致线上数据分布在0点以后与0点之前产生较大差别。相应地，学习算法获取到新的reward信号之后，也会做出适应性地调整。

接下来，我们再对双十一当天排序权重分的变化情况进行考查。我们一共选取了若干个精排权重分来进行实时调控，下面两幅图分别展示了21号桶的iphone和android中，每个维度的排序权重分在一天内的变化。

DDPG与梯度融合

这个整体实现，较之前的DPG方案，一方面可以受益于深度神经网络强大的表征能力，另一方面也可以从监督学习网络获得很好的梯度，获得较好的初始化，并保证整个训练过程中的稳定性。

总结与展望

总的来说，我们将强化学习应用到淘宝的搜索场景中只是一次初步尝试，有很多方面都需要进一步探索，现将我们在未来需要改进的地方以及可能的探索方向归纳如下：

（1）状态的表示：我们将用户最近点击的商品特征和用户长期行为特征作为状态，其实是基于这样的一个假设，即用户点击过的商品能够较为精确地反映用户的内心活动和对商品的偏好。但实际上，用户对商品的点击通常具有盲目性，无论什么商品可能都想要看一看。也就是说，我们凭借经验所设定的状态并非那么准确。深度强化学习对状态特征的自动抽取能力是它在Atari Game和围棋上取得成功的重要原因之一。因此，在短期内可以考虑利用深度强化学习对现有方案进行扩展。同时，借助深度神经网络对状态特征的自动抽取，我们也可以发现用户的哪些行为对于搜索引擎的决策是比较重要的。

（2）奖赏函数的设定：和状态的定义一样，我们在第二章设定的奖赏函数也来自于人工经验。奖赏塑形（Reward Shaping）虽然是优化奖赏函数的方法，但其本质上也是启发式函数，其更多的作用在于对学习算法的加速。逆强化学习（Inverse Reinforcement Learning，IRL）是避免人工设定的奖赏函数的有效途径之一，也是强化学习研究领域的重要分支。IRL的主要思想是根据已知的专家策略或行为轨迹，通过监督学习的方法逆推出问题模型的奖赏函数。Agent在这样的奖赏函数上进行学习，就能还原出专家策略。对于我们的问题，IRL的现有方法不能完全适用，因为我们的搜索任务并不存在一个可供模仿的专家策略。我们需要更深入思考如何在奖赏函数与我们的目标（提升CTR，提升成交笔数）之间建立紧密的关系。

（3）多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）：我们将搜索引擎看作Agent，把用户看成响应Agent动作的环境，属于典型的单智能体强化学习（Single-Agent RL）模式。在单智能体强化学习的理论模型（即MDP）中，环境动态（Environmental Dynamics，也即奖赏函数和状态转移函数）是不会发生变化的；而在我们的问题中，用户的响应行为却是非静态的，同时也带有随机性。因此，单智能体强化学习的模式未必是我们的最佳方案。要知道，用户其实也是在一定程度理性控制下的，能够进行自主决策甚至具有学习能力的Agent。从这样的视角来看，或许更好的方式是将用户建模为另外一个Agent，对这个Agent的行为进行显式地刻画，并通过多智能体强化学习[21]方法来达到搜索引擎Agent和用户Agent之间的协同（Coordination）。

强化学习为何有用？——延迟奖赏在搜索排序场景中的作用分析

背景

我们用强化学习（Reinforcement Learning，RL）在搜索场景中进行了许多的尝试，例如：对商品排序策略进行动态调节、控制个性化展示比例、控制价格T变换等。虽然从顺序决策的角度来讲，强化学习在这些场景中的应用是合理的，但我们并没有回答一些根本性的问题，比如：在搜索场景中采用强化学习和采用多臂老虎机有什么本质区别？从整体上优化累积收益和分别独立优化每个决策步骤的即时收益有什么差别？每当有同行问到这些问题时，我们总是无法给出让人信服的回答。因为我们还没思考清楚一个重要的问题，即：在搜索场景的顺序决策过程中，任意决策点的决策与后续所能得到的结果之间的关联性有多大？从强化学习的角度讲，也就是后续结果要以多大的比例进行回传，以视为对先前决策的延迟激励。也就是说我们要搞清楚延迟反馈在搜索场景中的作用。本文将以继续以搜索场景下调节商品排序策略为例，对这个问题展开探讨。本文余下部分的将组织如下：第二节对搜索排序问题的建模进行回顾，第三节将介绍最近的线上数据分析结果，第四节将对搜索排序问题进行形式化定义，第五节和第六节分别进行理论分析和实验分析并得出结论。

如果把搜索引擎看作智能体（Agent）、把用户看做环境（Environment），那么图1展示的交互过程对于搜索引擎Agent来讲是一个典型的顺序决策问题。若从强化学习的视角来看，图1所展示的过程就是一次Episode，可以重新用图2进行描述。在图2中，蓝色的节点表示一次PV请求，也对应Agent进行状态感知的时刻，红色的节点表示Agent的动作，绿色箭头表示对Agent动作的即时奖赏激励。

需要注意的是，由于搜索引擎每一次的决策都是在PV请求时发生的，所以决策过程中的状态与展示的商品页是一一对应的。更严格地来讲，每一个决策点的状态应该是“这个决策点之前所有商品页面包含的信息总和”，包括这些页面展示的商品信息，以及用户在这些页面上的实时行为。在目前的系统实现中，由于性能、信息获取条件的限制，现有的状态表示中并没有完全囊括这些信息。但抛开具体的状态表示方法不谈，我们可以认为一个商品页就是一个状态。在下一节中，我们将以PV为单位对线上数据进行统计分析，希望能够发现这个搜索排序问题的一些特性。

数据统计分析

从图3的结果中，可以看到Episode的长度越大，其对应的占总体的比例越小。这与“越往后的PV转化率越低”的经验是相符的。从绝对数值上看，超过60%的成交都是在前6个PV中发生的，而=1、2、3的比例更是分别超过了20%、15%和10%。当然，图4的结果来自于对全类目数据的统计。为了消除类目间差异给统计结果带来的影响，我们选取了“连衣裙”、“女鞋”和“婴幼儿服饰”这三个成交量较大的类目，分别进行了相同的统计分析，相应的结果展示在图4-6中。

虽然分类目统计结果与全类目的结果在绝对数值上有一定差别，但还是呈现出了相同的趋势。如果不考虑具体的数值，我们至少可以得出一个结论：用户在看过任意数量的商品展示页之后，都有可能发生成交。根据这个结论，我们可以将一次搜索会话过程用图7的抽象示意图来描述。如图所示，垂直方向的箭头由上向下表示用户不停翻页的过程。每翻一页，用户选择商品的范围就增加一页，PV的History也对应地发生变化。横向地来看，用户在任意的PV History下，都有可能选择购买某个被展示的商品，或者继续往下翻页。当然，如果考虑到用户也有可能离开搜索引擎，我们可以得到图8中的更一般的示意图。

在我们的场景中，“成交”和“离开搜索引擎”均被视为一个Episode的终止状态。如果把图8和马尔可夫决策过程（MDP）的状态、状态转移等要素对应起来，就可以发现搜索排序问题的明显特征：任意非终止状态都有一定的概率转移到终止状态。这同一些典型的强化学习应用场景相比有很大不同。比如，在网格世界和迷宫问题中，只有与邻近终点的位置才有非零的概率转移到终止状态。在接下来的内容中，我们将根据搜索排序问题的特点对其进行形式化定义，并在此基础上做相应的理论分析。

搜索排序问题形式化

本节提出搜索会话马尔科夫决策过程模型（Search Session Markov Decision Process, SSMDP），作为对搜索排序问题的形式化定义。我们首先对搜索会话过程中的上下文信息和用户行为进行建模，形式化定义商品页、商品页历史、成交转化率等概念，它们是定义状态和状态转移关系的基础。

其中，(ℎ+1)表示item page history ℎ+1对应的成交均价。

理论分析

马尔可夫性质

折扣率

至此，我们可以回答之前提出的问题：站在提高搜索引擎成交额的角度，搜索排序问题中考虑延迟奖赏是必要且必须的。从理论上，这是因为最大化无折扣累积奖赏能够直接优化搜索引擎的成交额。究其深层原因，是因为用户在搜索商品的每个步骤（即每个item page history）的行为都是基于之前观察到的所有信息（或者大部分信息）作出的反应，这天然决定了搜索排序问题的sequential decision-making本质。

实验分析

基于强化学习的引擎性能优化

背景

和谷歌类似，淘宝的搜索排序是建立在数十种排序因子（当然，谷歌有数百种）之上的，随着近年来深度模型的广泛应用，越来越多的复杂且耗时的因子被引入到搜索排序中，这一方面带来了排序效果上的收益，另一方面，也对线上引擎的性能带来了新的挑战，而这样的挑战不仅来自于高耗时排序策略无法全量生效，也来自于双11这样的突发性高流量对引擎的瞬间压力。

通常来说，面对这样的大规模流量访问，当引擎的处理能力不足时，通常有2种做法：一种是算法端准备一个廉价的方案，去掉效果好但耗时高的因子，这个方案比最好的策略差很多，但是引擎肯定可以扛得住；另一种是引擎端执行临时性的降级方案，比如，下线不重要业务、减少召回数量、通过粗排过滤更多宝贝等方法。可以看到，不管哪一种，都是效果对性能的硬妥协（hard compromise），所以我们尝试问自己这样一个问题，can we make it softer, and smarter?

当然，答案是，完全有可能！实际上，当我们观察我们线上的排序因子，我们发现，即使每一个因子的上线初期都经过了A/B测试验证了其有效性，但总体来看，因子之间的相关性仍然很高，我们抽取了一个子集，计算了两两之间的皮尔逊积矩相关系数（Pearson product-moment correlation coefficient），如下图所示：

问题建模

由于reward可以在模拟环境中得到，因此可以通过离线的充分训练，让模型有机会探索到更优的解，同时通过策略梯度更新模型，直至收敛。

状态的定义是一个关键环节，在我们的方案中，我们将排序模型作为环境相应Agent的动作请求，而Agent通过转移状态和reward来决定下一次的动作。因此，如何设计状态等MDP的关键环节成为方案的核心。我们将一步一步展开我们的设计。

奖赏函数的设计

算法设计

理论分析

目前我们初步得到一下理论结果，更多的理论结果与分析将在以后的文章中陆续给出：

实验效果

基于强化学习端的训练主要是在Porsche平台上面的TensorFlowOnBlink完成，预测通过QP完成。QP的功能主要是根据当前query和user info，给引擎发出skip feature的字符串，然后引擎按照给出的字符串drop相应的feature计算。

测试结果如下：

regular测试的时间主要是8月6日到11日，取一周通天塔报表均值。我们的测试桶与基准桶测试结果如下:

实验结果

非常让我们高兴的是，尽管我们允许指标微跌，但是实验桶与测试桶基本持平，同时节省了大约30%搜索引擎的耗时开销。

在双十一当天，我们也上线测试，在全量已经减少精排数的基础之上，相比基准桶，再节省了20%的引擎性能开销。

总结

我们将强化学习应用到了搜索引擎的性能优化上面，目前在业界据我们所知是首次应用。这位强化学习在工业界的应用提供了一种新的思路，也为业务压力越来越大的淘宝搜索提供了一种优化方案。目前我们已经取得了初步的实验结果，我们将继续优化我们的方法，希望能够为集团的其他基础设施也提供类似的优化方案。

基于强化学习分层流量调控

背景

福利经济学告诉我们，市场可以解决两大问题，效率和公平。在满足一定的条件情况下，通过市场机制可以实现帕累托最优，达到单独改变任何一个个体都不能实现更优的状态，以此实现效率的最优化。但效率最优往往是不够的，一个贫富差距巨大的社会仍然有可能是帕累托最优的，但是是一个极不稳定的状态，一个稳定的社会结构还需要考虑公平，福利经济学第二定理因此指出，通过改变个体之间禀赋的初始分配状态，仍然可以通过竞争性市场来达到帕累托有效配置，从而兼顾公平。

事实上，今天的淘宝俨然已经成为了一个规模不小的经济体，因此，社会经济学里面讨论的问题，在我们这几乎无不例外的出现了。早期的淘宝多数是通过效率优先的方式去优化商品展示的模式，从而产生了给消费者最初的刻板印象：低价爆款，这在当时是有一定的历史局限性而产生的结果，但肯定不是我们长期希望看到的情形。因为社会大环境在变化，人们的消费意识也在变化，如果我们不能同步跟上，甚至是超前布局的话，就有可能被竞争对手赶上，错失良机。因此有了我们近几年对品牌的经营，以至于现在再搜索“连衣裙”这样的词，也很难看到9块9包邮的商品，而这个在3年之前仍然很常见。而这里的品牌和客单等因素，是通过一系列的计划经济手段来进行干预的，类似于上文福利经济学第二定理中的禀赋分配，依据的是全局的的观察和思考，很难而且也不可能通过一个局部的封闭系统（例如搜索的排序优化器）来实现。

因此，越来越多的运营和产品同学，鉴于以上的思考，提出了很多干预的分层，这里的分层指的是商品/商家类型的划分，可以从不同的维度来划分，比如，按照对平台重要性将天猫商家划分成A、B、C和D类商家；按照品牌影响力将商品划分为高调性和普通商品；按照价格将商品划分为高端、中等、低端商品等。而早期的算法同学对这些可能也不够重视，一个经典的做法即简单加权，这通常往往会带来效率上的损失，因此结果大多也是不了了之。但当我们认真审视这个问题的时候，我们其实可以预料，损失是必然的，因为一个纯粹的市场竞争会在当前的供需关系下逐步优化，达到一个局部最优，所以一旦这个局部最优点被一个大的扰动打破，其打破的瞬间必然是有效率损失的，但是其之后是有机会达到比之前的稳定点更优的地方。

局部最优和全局最优

所以，这其实给我们算法同学带来2个问题：

• 如果尽可能的减少瞬时损失？

• 如何尽快的到达新的有可能更优的局部最优点？

对应的解决方案也很自然：

• 进行个性化的干预，减少不必要的损失，例如干预的分层为物流时效，那么当时对物流不敏感而对销量更看重的那些用户，则没有必要进行很强的干预

• 通过更广泛，更smart的exploration，仍然以上面的例子，因为当前的整体排序没有考虑物流时效，所以我们的数据中就没有这样的属性，所以我们无法从监督学习来学习到类似更多次日达这样的商品被排到首页的效率会如何变化，这只能逐渐的“试”出来，再从之后的用户反馈中总结经验，是一个典型的“trial and error”的过程

所以当我们进一步抽象时，会发现这自然的定义了一个强化学习问题：个性化的干预可以看做针对不同的状态，所采取的动作不一样，而更广泛，更smart的exploration则对应着要将强化学习的搜索学习过程。

问题建模

我们把搜索行为看成是用户与搜索引擎交互的MDP，搜索引擎作为agent、观察到的用户和搜索词信息作为state、排序策略作为action（流量调控feature只是众多action中的一员）、用户反馈（pv/click/pay）作为reward，排序参数优化问题也可通过RL来求解。为了引入流量结构变化的影响，我们将分层流量占比的变化和用户行为反馈一起作为reward，具体地

Dynamic Action Boundary by CEM

上文的建模建立在PV粒度的奖赏，但是由于用户的行为的不确定性（这个不确定性一方面来自于用户的点击购买行为具有随机性，另一方面来自于我们对用户建模的不确定性），所以瞬时奖赏会有很大的variance，会对学习带来很大的影响，所以此时如果在整个实数空间进行搜索的话，很有可能收敛不了。因此我们设计了upper bound和low bound，使得RL算法只需要在局部进行搜索，降低了学习的

难度，但这又带来了2个新的问题： 1. 如何确保upper bound和low bound的合理性？ 2. 如何防止选取了一个局部的最优区间？

我们的RL实现选择了我们自己在AI4B中实现的DDPG，整体流程如下：

• 使用CEM选取初始upper bound和low bound

• 启动RL进行学习，于此同时，使用CEM动态调节upper bound和low bound

实验效果

双11期间在gmv损失可控（1%）的情况下，目标商家流量占比提升30%+。

总结与展望

本文的主要工作是基于强化学习的分层流量调控框架实现，在一小部分流量上探索分层调控策略对指标的影响，再结合探索策略的收益在剩余流量上精细化投放。作为流量结构调整的实施部分，框架本身还有很多需要改进的地方，在reward设计方面，不同分层流量的reward融合、分层流量reward与行为反馈reward的融合都是需要深入的方向；在探索策略设计方面，目前还是单个维度explore，效率较低，后面会尝试多个维度同时explore。另外，文章开头提到的如何评估流量结构变化的长期影响是一个更有价值的课题。

虚拟淘宝（联合研究项目）

背景

强化学习面临的问题

在某些场景下中应用强化学习（例如围棋游戏中的AlphaGo），进行策略探索的成本是非常低的。而在电商场景下，策略探索的成本会比较昂贵，一次策略评估可能需要一天并且差的策略往往对应着经济损失，这是在线应用强化学习遇到的一个普遍问题，限制了强化学习在真实场景下的应用。针对这个问题，我们和强化学习方面的知名专家，南京大学机器学习与数据挖掘研究所的俞扬副教授进行了深度合作，

通过逆向建模环境，尝试构建了一个“淘宝模拟器”，在该模拟器上，策略探索的几乎没有成本，并且可以快速进行策略评估。而且在这样一个模拟器上，不仅可以对各种RL算法进行离线尝试，而且还可以进行各种生态模拟实验，辅助战略性决策。

虚拟淘宝

真实淘宝和虚拟淘宝

学习用户行为：监督学习

模拟器的关键在于模拟用户的行为。传统的监督学习方法将用户的观察（observation）作为特征，用户的行为作为标签（label），试图在这些数据上训练得到用户的行为策略。

监督学习方案

这种简单的方式不是很奏效，原因是数据分布高度依赖于当时的线上策略，导致数据会很不充分，这样由于方差漂移（covariate shift）带来的compounding error会使得算法失效。

学习用户意图：逆强化学习

逆强化学习概述

强化学习是求累积回报期望最大时的最优策略，在求解过程中立即回报是人为给定的。然而，在很多任务中，尤其是复杂的任务中，立即回报很难指定。那么如何获取即时回报呢？逆向强化学习的提出者Ng认为：专家在完成某项任务时，其决策往往是最优的或接近最优的，那么可以这样假设，当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时，强化学习所对应的回报函数就是根据示例学到的回报函数。简单地讲，逆向强化学习可以定义为从专家示例中学到回报函数。传统强化学习在很多复杂问题上难以学得较优策略，而逆强化学习通过专家策略，往往能够取得更好的效果。例如在预测司机行为以及规划机器人步态等问题，逆强化学习都取得了很好地效果。

多智能体逆强化学习

学习用户意图

用户看到了商品，为什么会购买？我们假设，用户有一个购买商品的意图（intention），用户看到商品之后，用户本身的属性以及商品的一些属性使得用户有了购买的意图。我们用奖赏函数（reward function） :×→ 表示用户的内在行为意图，其中是用户的观察空间（包括了用户的特征以及用户看到的信息），是用户的动作空间。那么，如何获得(,)呢。我们可以将淘宝用户视为“专家”，用逆强化学习方法，通过淘宝用户的历史行为，学出其内在的奖励函数。然后，利用强化学习方法，学习出用户的行为策略，即构建了用户行为模拟器。

生成对抗式模仿学习

如果给了专家历史数据，逆强化学习（IRL）能够方法能够学出专家的奖励函数，相对于行为克隆（behavior cloning）方法，该方法能够处理历史数据不够充分的问题。然而迭代使用RL方法使得IRL效率非常低。最近，理论表明显式地学习出

奖励函数并非必要，可以直接学得专家策略，生成对抗式模仿学习在理论上等价于逆强化学习，并且效率更高 [Ho and Ermon, 2016]。

构建用户行为模拟器

问题建模

智能体（agent）在状态下作了动作之后，应该转移到哪一个状态？即时的奖赏应该是多少？在很多强化学习问题（例如atari游戏，围棋）中，这都不是问题，因为我们与环境进行交互非常方便，我们只需要做出一个动作，然后等待环境反馈的结果就可以了，并不会带来更多的开销。而在电商场景下，与环境的交互是昂贵且耗时的，大量探索式的交互是不切实际的。

我们希望用模仿学习的方法学习用户的意图，也就是模拟线上环境。将环境，也就是在线的用户，视为专家（expert）。我们专家历史数据（每天交易产生的大量日志），可以从中学得用户的策略作为我们的环境。注意到，我们日志的量虽然很大，但它是高度有偏的，因为只有发生购买行为的pv才会被记录，所以基于行为克隆的模仿学习是不适用的。为了区别与训练引擎策略的MDP过程ℳ，我们用ℳ=<,,,,>表示模拟环境时的MDP过程。

• 状态空间将提取的用户特征和引擎权重作为状态。

• 动作空间将用户购买行为作为环境的动作。

• 奖励函数训练判别器，用来判断<,>是否来自真实数据，用的输出作为奖励。

• 策略定义参数化策略 :→。

模拟器框架如下图输入是用户的特征（性别、年龄、购买力、query行业），首先，经过引擎网络，输出引擎的动作，然后，用户特征以及引擎动作经过模拟器网络产生用户行为，即是否购买。另外，判别器网络会根据用户特征以及引擎权重给出奖励。

模拟器网络结构

算法设计

我们在生成对抗模仿学习（GAIL）的框架下，提出了LERD（Learn Environment with Restricted Data）算法，过程如下：

实验结果

初步的实验结果表明，相同的引擎策略（random策略），模拟器上模拟的购买率与真实购买率类似，同时在模拟器上训练TRPO算法，得到的策略在模拟环境上购买率有明显提升，这项工作的研究仍然在进行中。

参与人员

阿里巴巴搜索事业部（为保护个人隐私均用花名）：哲予、削觚、萱然、达卿、仁重

虚拟淘宝合作方南京大学：侍竞成、陈士勇、俞扬（副教授）

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。