《评估模型简化对模拟中学习策略的迁移影响》257页

随着技术的进步，我们不断被推向新的领域。当今发生的最根本的变化之一就是不断推动无人驾驶和自主系统的发展。这些系统在日常生活中越来越普遍。无人驾驶系统的开发和部署正在改变军事和民用领域的各种场景。从战场到生产线，缓慢的进步是显而易见的。即使在更微妙的方面，如商品定价和战略信息识别，没有人类作为主要决策驱动力的系统也在不断进步。

随着这一领域的发展和成熟，其自主程度也在不断提高。也就是说，过去只能执行死板例行公事的系统，现在能够处理越来越多的抽象任务。例如，今天的汽车已经从保持这个速度到在这条高速公路上行驶。随着自动驾驶水平的不断提高，我们需要新的方法来制定控制策略。随着目标变得越来越抽象，必须考虑的边缘情况也随之激增。基于经典推导和规则的策略很快就会变得过于复杂，无法实际执行。

强化学习领域的最新突破有望解决这一问题。基于强化学习的系统的主要优势在于其专注于目标驱动行为。也就是说，首先要在目标导向的框架内定义系统的行为。积极的结果，如赢得游戏、递送包裹或识别目标，都会得到奖励。负面结果，如撞车、错过目标或无法完成任务，则会受到惩罚。通过探索，可以发现并完善积累积极经验和避免消极经验的政策。

在开发基于强化学习的策略时，建模和模拟是不可或缺的工具。可以将系统置于成本过高、危险或根本不可能重现的情景中，并对其行为进行严格评估。这样就可以进行必要的探索，以确定和改进在特定环境中行之有效的政策。然而，由于在建模过程中进行了简化，系统建模必然会在预测结果中引入认识上的不确定性。这些不确定性可能会产生复杂的影响，导致在真实系统中看不到的行为，或者抑制了细微的行为，而这些细微的行为扩大后变得更加重要。模拟与真实体验之间的这种不匹配通常被归结为所谓的现实差距。

整个自主系统研究的一个子领域，即 “模拟到现实”，就是试图解决这一差距。产生能从模拟环境转移到目标环境的政策的常见方法包括使用高保真模拟和转移学习技术。虽然其中一些成果很有希望，但我们对建模选择在环境间转移中的作用的理解仍然存在差距。也就是说，目前的文献没有直接解决选择在系统简化模型中表示的现象的问题。

为了解决这个问题，我们开发了一种方法，用于比较系统模型中需要考虑的现象的相对重要性。通过将系统表示为一系列现象，可以将可能的简化空间表示为一组需要考虑的离散模型。我们采用了一种基于抽样的方法来探索这一空间。这种方法用于对表示系统时可能进行的简化中具有代表性的部分进行抽样。实验表明，通过对空间进行相对较小的取样，可以对各种现象进行排序，从而使完全参照模型的显著简化版本保持相似的传递特性。

通过评估各个抽样简化，可以量化不同现象的重要性。具体做法是将简化分组为非排他性的集合。这些集合以个别现象为特征，并允许对集合的性能进行综合衡量，以表示每个特征现象的重要性。结果表明，使用这种重要度量方法，可以开发出一组有序的简化模型，其保真度也会越来越高。与其他生成类似模型集的方法相比，通过这种方法确定的模型集在较低的保真度水平上显示出更好的转移性。

其他实验表明，这种方法适用于不存在完美的参照系统知识的情况。由此可见，这种方法适用于不可能对真实系统进行转移评估的现实系统。此外，还对个别现象的取样策略和评估指标进行了评估。最后一个实验展示了该方法在一个常见的强化学习基准--Acrobot 系统中的应用，实验结果表明，该方法在很大程度上是成功的，它能正确识别出一种现象，这种现象在质上改变了成功所需的控制，是最重要的。同样，它也能将在训练有素的策略下对系统行为影响微乎其微的干扰现象识别为最不重要的现象。更令人鼓舞的是，通过该方法识别出的一些简化模型所产生的策略实际上优于直接在真实系统上训练的策略。

图 3.1：所开发方法的概述。首先，对已识别现象的简化空间进行采样，以确定实验设计。实施与该设计相关的简化模型，并为每个模型合成和评估一个策略。然后将这些策略转移到参考模型（可以是真实系统）并进行评估。由此产生的数据被归类为每种现象的非排他性集合。如果简化模型包含了某一现象，其数据也包含在这一集合中。比较每组数据的转移统计量，得出现象的相对排序。

成为VIP会员查看完整内容