今天的人类生活受益于科学及其各种应用。特别是,人工智能(AI)增加了一个新的层面,使人们相信人类的智慧可以被人工取代。然而,智能本身是如此庞大、自发、原始和不确定,以至于在不久的将来,它可能无法被纯粹地复制或取代。尽管如此,还是有强大的科学团体相信这种替代,从学术角度来看,它确实值得赞赏(Jarrahi, 2018; King and Grudin, 2016)。然而,智能的机制可以通过建立机器、智能体和系统,甚至编写计算机程序,在一定的边界内进行分析。这种人工开发的系统可以协助人类做出更好的决定,或根据人类定义的一套规则行事(Duan, Edwards and Dwivedi, 2019)。换句话说,科学界在开发学习如何智能并相应执行的系统方面会有更大的成功(Julian Togelius,2007;Yannakakis和Togelius,2015)。本论文的重点是建立一个智能决策方案,处理多目标(MO)环境中的动态问题。更具体地说,本研究指导如何开发一个计算机应用程序,使其学习到智能,并在动态多目标(DMO)环境中使用深度强化学习(DRL)执行识别优化的解决方案。人类生活由各种问题组成,这些问题是动态的、多参数的和复杂的。每一个问题都需要遵循不同的步骤来做出最终决定,如果有一个以上的选择,就需要进行优化。因此,多目标优化,一个为问题寻找最佳解决方案的过程,在最近几年变得很流行(Zaroliagis和Christos,2005;Botte和Schöbel,2019)。许多问题涉及连续变化的属性,需要从许多可用的解决方案中找到一个最佳解决方案,这非常具有挑战性。例如,预订航班或酒店,安排班级常规,以适应因工作人员缺席和房间不可用而产生的不断变化,在战争中部署一支军事部队等等。这些场景需要动态优化,因为决策需要根据情况经常改变。另一个例子是癌症患者的用药,其目标不仅仅是在较短的时间内治愈他们,而且要尽量减少药物的副作用(Preissner等人,2012)。这个问题还涉及到用药期间可能出现的任何新情况的风险。在计算智能领域,解决这些动态多目标优化问题(DMOPs)的常见方法是进化方法(Azzouz, Bechikh and Said, 2017; Lam, Branke and Abbass, 2005)。然而,最近,多目标优化领域的许多科学文献显示,在使用多目标马尔科夫决策过程(MOMDP),特别是使用强化学习(RL)技术来解决问题时,出现了截然不同的视角(Lizotte和Laber,2016;Drugan等人,2017;Bamakan、Nurgaliev和Qu,2019)这种技术的主要目标之一是达到被称为帕累托最优解(POS)的解决方案集,它尽可能接近真正的帕累托最优前沿(POF)。这些技术不仅可以找到帕累托前沿的形状,而且还有助于调查和解码解决方案可能具有的有趣事实(Gopakumar等人,2018)。此外,最近多目标马尔科夫决策过程(MOMDP)不仅因其适用性,而且在解决实际的多目标问题方面也受到了极大的关注(Lizotte和Laber,2016)。为了解决MOMDP,常见的方法是使用状态、行动和奖励函数来定义RL模型。奖励函数可以是标量或矢量。然而,根据奖励假设(Sutton和Barto,2018),目标和目的可以用收到的标量信号(即奖励)的累积总和的期望值最大化来正式确定。换句话说,所产生的MOMDPs总是可以转化为具有聚合回报的单一目标MDPs。然而,Roijers等人(2013)拒绝了Sutton的观点,质疑其在现实世界中的应用。他们提出了三种静态场景(即已知权重、未知权重和决策支持场景),作者表明其中一种或两种转换是不可能的、不可行的或不可取的。此外,就DMOPs而言,由于缺乏测试平台,该领域的研究非常少(Azzouz、Bechikh和Said,2017)。在这项研究中,通过提出一个动态多目标测试平台(即动态深海寻宝)来解决这一研究空白,这可能会引导研究人员在这一领域做进一步调查。据我所知,这是在使用DRL的动态多目标优化方面的第一项工作。此外,关于RL环境的动态多目标优化基准的必要性的论证已经确立,因为问题空间的复杂性和在合理的时间范围内找到一个解决方案是计算密集型的,如NP-hard或NP-complete问题(Plaisted,1984)。此外,还提出了一种算法,该算法主要负责在定义的动态环境中处理一个以上的目标。之后,该算法的实施被认为是根据巴西圣保罗(SP)22个地区的水质恢复力来识别和预测脆弱地区,这确保了所提算法的适用性和效率。这种实施方式打破了理论知识的界限,有助于解决实际问题。关于实施,只考虑了基本网络,它有461个数据采集点。水体的流量测量是由圣保罗环境公司(CETESB)与圣保罗州水和能源部合作进行的。其结果是通过读取刻度来测量水体中的流量来取样。2017年,核心网络产生了约118,000个(如物理、化学、生物、生物分析和生态毒理学)数据量(Publicações e Relatórios | Águas Interiores, 2017)。这一实施也可能导致解决我们每天面临的其他一些动态的现实世界问题。
选择测试案例2是为了让所提出的算法(即PQDQN)和方法(即MOMDP)能够解决巴西一个拥挤的城市中的实际问题。考虑到这一庞大人口的公共供水问题,圣保罗州政府正在努力实现该州各市镇的普遍卫生设施,在那里,各种服务(如测量和维护水质、污水处理服务等)的人口比例增加。然而,水污染恶化了水的质量,阻碍了圣保罗的可持续发展(Governo do Estado de São Paulo | Eleições, 2018)。河流、水库、河口和沿海地区水域中存在的污水降低了水质,限制了其多种用途,同时增加了因初次接触或摄入受污染的水而引起的水传播疾病的发生(Nogueira等人,2018)。为了确定脆弱地区并在这些地区采取适当的行动,需要大量的人力和费用。这些行动涉及综合管理行动,涉及与工农业污水使用管理、人力资源(HR)管理的复杂性、固定资产和反应性或计划性维护有关的各个部门和组织(Barbosa, Alam and Mushtaq, 2016)。因此,重要的是实现流程自动化,以尽可能快地检测出脆弱区域。因此,基于人工智能的最佳决策支持系统可以减少管理这种巨大任务的成本,并可以产生社会经济影响,这可能有助于可持续发展。图1.2显示了测试案例2的鸟瞰图,其中智能体能够根据水质恢复力预测脆弱区域。图1.2:测试案例2的示意图简而言之,该测试案例中发现的问题如下: