1. 简介

机器学习（ML），从广义上讲，是一类自动优化参数以处理给定输入并产生所需输出的计算机算法。ML的一个经典例子是线性回归，据此找到一条最适合（通过）一组点的线。最近的一个例子是分类任务，如用 "猫 "这样的单字来标记一张百万像素的图像。

对于许多应用，ML完成了人类可以做得同样好的任务。然而，ML在两种情况下大放异彩：1）任务的数量巨大，例如数百万；2）问题的维度超出了人类思维的理解。一个简单的例子是同时实时监控成千上万的安全摄像头，寻找可疑的行为。也许一个ML方法可以发现异常事件，并只与人类观察者分享这些视频片段。更好的是，异常图像可以被暂时贴上诸如 "1号入口处的蒙面入侵者 "之类的标签，以帮助保安人员只关注相关的信息。

除了减少人类的负担外，ML还可以将人类可能无法识别的复杂的相互联系拼凑起来。例如，一个ML算法可以发现，在一百万个银行账户中，有五个账户的交易似乎是同步的，尽管它们没有相互发送或接收资金，也没有向共同的第三方发送或接收资金。

鉴于手持和固定设备的计算资源不断增加，我们有必要想象一下，ML可以在哪些方面改变战争的打法。当然，ML已经对美国陆军的科学研究产生了影响，但我们也可以很容易地想象到自主车辆和改进的监视等作战应用。

本文件的主要目标是激励美国陆军和美国防部的人员思考ML可能带来的结果，以及为实现这些结果，哪些研究投资可能是有成效的。

5. 使用机器学习的ARL研究

在ARL的许多研究项目中，机器学习目前正在被使用，或者可以被使用。我们列出了一些使用ML或可能从ML中受益的研究项目。我们列出的与ML相关的ARL研究工作绝非完整。

6. 军队作战应用

虽然从技术上讲，机器学习自19世纪初高斯发明线性回归以来就一直存在，但我们相信，ML的最新进展将以我们目前无法想象的方式影响军队。在本节中，我们概述了我们认为将得到加强的军队行动的许多领域，以及可能采用的ML方法的种类。

6.1 军事情报

军事情报包括信息收集和分析，因为它涉及到指挥官做出最佳决策所需的信息。由于收集的数据量越来越大，处理必须自动化。需要考虑的主要问题是数据的数量、速度、真实性和多样性。大量的数据（又称大数据）需要在许多计算节点上对数据进行智能分配。速度要求快速计算和网络连接到数据流。真实性是对信息来源和异常检测的信任问题。多样性相当于使用许多不同的ML算法的不同训练模型的应用。我们在本小节中概述了不同类型的数据和分析要求。

6.1.1 自然语言处理

让计算机从从各种媒体来源收集到的大型文本数据库中提炼出重要的概念和文本部分，有很大的好处。最近报道的另一个ML突破是不同语言之间的精确文本翻译。军队的一个独特挑战是翻译不常见的语言，因此专业翻译人员较少。在人工通用智能（AGI）领域，一些团体声称，自然语言处理将是类似人类认知的基础。

6.1.2 数据挖掘

鉴于人类、传感器和代理产生的数据的激增，一个很大的问题是，除了证明其收集的直接用途之外，这些数据还包含什么剩余价值。数据挖掘可以是统计学和机器学习的努力，以发现数据中的模式，否则人类操作者就会错过。

6.1.3 异常检测

传统上，异常检测是通过首先识别已知数据的群组和描述数据的分布来进行的。然后，当新的输入被处理时，它们被识别为属于或不属于原始分布。如果它们在已知分布之外，就被认为是异常的。以下许多类型的异常检测系统可能对军队有用。

网络入侵检测：超出常规的网络流量。McPAD和PAYL是目前使用的软件中的2个这样的例子，它们使用了异常检测。
生活模式异常：人们的视觉和生物统计学上的行为方式与常人不同，表明他们可能正在进行一些对抗性行动。
基于条件的维护：在当前生命周期中，材料/系统在其年龄段不典型的信号。
士兵异常：有理由相信士兵的生物识别技术不正常。
异物检测：在已知物资数据库中无法识别的物体的视觉效果。

6.2 自主性

6.2.1 自动目标识别

自动目标识别（ATR）是一个非常成熟的领域，已经使用机器学习几十年了。

1）目前深度学习的进展将在多大程度上增强ATR？

2）更复杂的算法是否需要更复杂/更耗电的机载计算？

ML是否能对目标的各种欺骗性的混淆行为具有鲁棒性？
强化学习在多大程度上可以用来进行实时轨迹调整？

6.2.2 机器人学

机器学习在机器人学中的应用也是一个巨大的领域。ML应用领域包括传感、导航、运动和决策。目前，传感将从计算机视觉的所有进展中受益。导航，除了使用标准的GPS之外，还可以从自我运动中受益，也就是基于自身感知的运动估计。运动可以被学习，而不是规划，这不仅会导致更快的开发时间，而且还能在新的环境或受损的模式下重新适应（例如，失去四条腿中的一条）。最后，随着机器人的数量超过人类操作员的数量，机器人将有必要自行决定如何执行其规定的任务。它将不得不做出这样的决定："由于电池电量不足，我是否要回到大本营？"或者 "我是否继续前进一点，然后自我毁灭？"

6.2.3 自愈性

除了机器人技术，人们最终希望任何系统在损坏或不能满负荷工作时能够自我纠正。这需要在某种程度上的智能，以自主诊断缺陷和问题，并利用其可用的资源纠正这些问题。

6.2.4 伦理

在通过机器学习来学习自主权的情况下，问题将是："自主系统将如何应对X情况？" 这里的问题是，对于一个拥有潜在致命武力的系统，我们怎么能确定它只会正确合法地使用武力？我们推测，在机器学习的算法拥有使用致命武力的实际能力之前，必须对其进行广泛的测试，即使它与人类的环形决策相联系。

6.3 通过玩游戏来训练智能代理

近年来，大量的研究都在研究使用机器学习来自主地玩各种视频游戏。在某些情况下，报告的算法现在已经超过了人类玩游戏的水平。在其他情况下，仍然存在着处理长期记忆的挑战。对于美国空军来说，智能代理已经成功地在以战斗为中心的飞行模拟器上进行了训练，这些模拟器密切模仿现实生活。陆军的问题包括以下内容。

智能代理能否附加到机器人平台上？
智能在多大程度上可以通用于处理现实生活与视频游戏中遇到的各种情况？
当我们可能不理解一个训练有素的代理的逻辑时，我们能相信它的行动吗？
代理在多大程度上能够与人类合作？

6.4 网络安全

在过去的十年里，机器学习在网络安全方面发挥了不可或缺的作用。具体来说，ML可以用于异常检测，检测已知威胁的特定模式，并辨别网络行为是否可能由恶意代理产生。随着该领域的不断加强，问题是ML是否能使安全比对手领先一步，因为对手可能利用ML来混淆检测。

6.5 预测和结构健康监测

一个长期的设想是，军队使用的每一个机械系统都有一些关于系统当前和预测健康的内部感应。相关问题如下。

我们能从有限的传感器中辨别出一个系统或系统组件的当前健康状况吗？
机载ML能否预测一个系统或系统部件在暴露于特定环境或弹道侮辱之后的健康状况？

6.6 健康/生物信息学

6.6.1 序列挖掘

随着基因组序列的数量继续呈指数级增长，比较在现场获得的序列所需的计算工作可能变得无法管理。机器学习可以通过对序列进行不同层次的分类来减少必要的比较。

6.6.2 医学诊断

93 近年来，机器学习已经在检测各种组织中的恶性肿瘤方面取得了长足的进步。94 它同样可以被用来描述创伤或创伤后应激障碍（PTSD）95，并制定治疗计划。

6.7 分析

陆军的一个重要组成部分集中在对行动、系统、研究和测试的分析上。传统上，分析人员使用大量的工具，包括机器学习，以多维回归、聚类和降维的形式。随着深度学习的出现，一套新的工具应该是可能的，可以更有效地处理需要更复杂模型的大型数据集。例如，应该有可能从测试期间拍摄的视频流中提取特征和物理属性，这可能超过目前的标准做法。

6.8 机器学习的其他用途

自适应用户界面（AUI）和情感计算。ML可以用来确定用户的心理和/或情绪状态，并提供适合这种状态的界面。此外，可变的AUI可以服务于用户的变化。例如，一些用户可能喜欢音频反馈而不是视觉反馈。
推荐系统。最流行的推荐系统之一是根据以前看过的电影的评分来选择用户想看的下一部电影（例如，所谓的 "Netflix问题"）。对于军队来说，可以根据以前的使用情况和库存核算的反馈来推荐后勤补给的情况。
搜索引擎/信息检索。传统上，搜索引擎返回文件的 "点击率"。新的范式是以简明的形式回答用户的问题，而不是简单的模式匹配。
情感分析。社交媒体上的流量和对环境进行训练的各种传感器不仅可以检测关键的关键词或特定物体的存在，还可以推断出可能的攻击的可能性。
有针对性的宣传。传统上，宣传是通过散发传单来完成的，如今，宣传可以通过社交媒体来传播。ML的角度是如何以最有说服力的信息向正确的人口群体进行宣传。此外，重要的是快速检测和颠覆来自对手针对我们自己的人员/人民的宣传。

7. 机器学习的研究差距

本研究的目标之一是确定当前研究中的差距，这些差距可能会限制ML在军队研究和行动中的全部潜力。本节借用了ARL运动科学家Brian Henz博士和Tien Pham博士（未发表）的战略规划工作。

7.1 如何将军队的数据/问题纳入当前的方法中

传统上，在一个特定领域采用ML的一半战斗是弄清楚如何适应现有的工具和算法。对于陆军所面临的许多问题来说，这一点更为突出，与其他学术、商业或政府用途相比，这些问题可能是独一无二的。任何数据分析员面临的第一个问题是使数据适应他们想要使用的统计或ML模型。并非所有的数据都使用连续变量或者是一个时间序列。离散/标签数据的管理可能非常棘手，因为标签可能不容易被转换成数学上的东西。在自然语言处理中的一个例子是，单词经常被转换为高维的单热向量。另一个例子可能是如何将大量的维修报告转换为对某一特定车辆在一段时间内的表现的预测。

此外，陆军的要求超出了典型的商业部门的使用范围，不仅需要检测物体和人，还需要检测他们的意图和姿态。这将需要开发新的模型。另一个大的要求是可解释性，正如DARPA最近的一个项目所概述的那样：是什么因素导致ML算法做出一个特定的决定？在一个真实的事件中，如果一个ML算法在没有人类验证的情况下宣布一个重要目标的存在，我们能相信这一决定吗？

7.2 高性能计算

随着对计算要求高的ML任务的设想，开发人员正在使用多线程、并行和异构架构（GPU、多核）来加快计算速度。ML的分布式实现远不如GPU版本常见，因为分布式计算中的节点间通信存在固有的网络瓶颈，而且在单精度浮点性能方面，GPU相对于CPU有很大优势。除了目前对GPU的强烈依赖，生物启发式神经计算旨在寻找非冯-诺伊曼架构来更有效地执行ML，并可能更快。这方面的一个例子是IBM的神经形态芯片。97 未来的研究应该关注如何分配ML处理，使节点之间的网络通信最小化。另外，像聚类这样的无监督学习算法在多大程度上可以被映射到神经网络中？

其他需要考虑的事情。

目前的ML软件（特定的神经网络）在一个小型的GPU集群中表现最好。
大多数基于非神经网络的ML算法的并行性不高，或者根本就没有并行。
另一个军队的具体挑战是分析基本上没有标记的数据集（例如，用无监督学习）。手动标注集群将是一种半监督学习的形式。

7.3 独特的尺寸、重量、功率、时间和网络限制因素

随着进入偏远地区或任何远离基地的地区，军队必须限制系统的尺寸、重量和功率。此外，在 "激烈的战斗 "中，时间是关键。例如，人们不能在遭到枪击时等待作战模拟的完成。最后，在其他商业发射器占主导地位的地区，或者在限制无线电通信以提高隐蔽性的情况下，网络带宽可能会受到很大限制。

在这种倍受限制的环境中，机器学习将需要有效地进行，而且往往是以一种孤立的方式进行。截然相反的条件是使用大型数据库训练大型神经网络，这往往是最先进的机器学习功力的情况。商业部门正在开发自动驾驶汽车，据推测将使用低功耗的计算设备（如现场可编程门阵列、移动GPU）进行自主驾驶、道路/障碍物检测和导航。然而，陆军将有更多的要求，包括自主传感器和执行器、态势感知/理解、与人类的通信/合作，以及广泛的战场设备。这将需要多几个因素的计算能力和特定算法的硬件，以实现最佳的小型化和低功耗。

7.4 用杂乱的或欺骗性的数据训练/评估模型

在混乱的环境中，操作环境预计会有比通常密度更高的静态和动态物体。此外，人们完全期待主动欺骗以避免被发现。我们也希望能够开发出足够强大的算法，至少能够意识到欺骗，并相应地调低其确定性估计。

7.5 用小的和稀疏的数据训练一个模型

基于CNN的目标分类的突破可以部分归功于每个物体类别的成千上万个例子的可用性。在军队场景中，某些人和物体的数据可能是有限的。人们最终将需要one-hot99或multishot分类器，其中几个有代表性的数据条目就足以学习一个新的类别。到目前为止，最好的选择是 "知识转移"，通过调整以前训练的模型的所有参数的子集来学习新的类别。我们的想法是，由于需要优化的参数较少，修改这些参数所需的数据也较少。

7.6 专门针对军队相关目标的训练模型

即使对于我们可以产生大量图像的目标类别（例如，友好物体），我们也需要训练自己的模型，以便从每个类别的潜在的数千张图像中识别军队相关类别。军队还使用商业车辆中通常不存在的其他传感模式（例如，热能和雷达）。因此，需要为这些非典型的传感设备训练模型。从根本上说，非典型传感设备可能需要新的神经网络拓扑结构以达到最佳的准确性和紧凑性。

7.7 将物理学纳入推理中

一个值得研究的有趣领域是将模型和模拟与机器学习相结合。有很多方法可以做到这一点。例如，ML可以用来推导出模拟的起始参数。此外，ML还可以用来处理模拟的输出。一个耐人寻味的新领域是开发基于物理学或类似物理学的模拟，使用类似ML的模型/方程。一个这样的应用是预测 "如果？"的情景。例如，"如果我跑过这棵树呢？接下来会发生什么？"

7.8 软人工智能

机器学习在传统上被认为是人工智能的硬性（即数学）表现形式。有可能最终，所有的人工智能任务都会被简化为数学。然而，就目前而言，一些智能任务似乎更多的是基于推理或情感。对于之前描述的方法中的任务，ML并不能充分解决以下软性人工智能的特点。

7.8.1 类似人类的推理

人类并不总是完全按逻辑推理，但他们也有能力将不完整的信息拼凑起来，做出 "最佳猜测 "的决定。几十年来，对这种行为进行编码一直是一个挑战。

7.8.2 情感

情绪似乎是驱动人类达到某些目的的动机/目标功能。例如，快乐可能会导致不活动或追求生产性的创造力。另一方面，恐惧则可能会导致忍气吞声。计算机是否需要情感来更有效地运作，还是说它们最好拥有100%的客观性？这既是一个哲学问题，也是一个未来的研究方向。不过现在，毫无疑问的是，在人与代理人的团队合作中，计算机需要准确地解释人类的情感，以实现最佳的团体结果。

7.8.3 社会交流

与人类的互动性是陆军研究未来的首要关注点。一个类似的问题是，不同的计算机系统之间如何进行交流，而这些系统不一定是由同一个实验室设计的。研究的一个领域是用计算机来教那些在这方面有困难的人进行社会交流。再一次，对于人与代理的合作，代理将需要能够参与社会互动，并在人类的陪伴下遵守社会规范。

7.8.4 创造性

创造力通常被认为是随机合并的想法，与新的元素相结合，由一个鉴别功能决定新创造的项目的功能和/或美学。在某些方面，创造力已经被某些计算机实验室所证明。例如，为了设计的目的，计算机可以被赋予某些方面的创造力。

7.8.5 通用智能

人工智能的最终目标是将许多狭义的智能算法合并成一个统一的智能，就像人类的头脑一样。75鉴于许多狭义的人工智能任务已经比人类的某些任务要好，即使是早期的所谓人工通用智能（AGI）也可能具有一些超人的能力。AGI的一个主要目标是将目前由人类执行的某些任务自动化。

7.8.6 人工超级智能

如果不提及许多哲学家的猜测，机器学习将最终能够改进自己的编程，导致能力的指数级提高，也许会远远超过人类智能，那么机器学习的研究就不完整了。这些设想既是乌托邦式的104，也是乌托邦式的105。希望超级智能能够解决世界上的许多问题。

8.结论

在这项工作中，我们回顾了机器学习的不同类别，并描述了一些更常用的方法。然后，我们指出了一小部分关于ML在ARL中的应用的例子。最后，我们预测了ML在未来可以应用于军队的各个领域，并概述了为实现这一结果需要解决的一些挑战。我们希望这份文件能够激励未来的研究人员和决策者继续投资于研究和开发，以充分利用ML来帮助推动美国陆军的发展。

成为VIP会员查看完整内容