【AI+军事】《有限数据下的深度学习：一种合成方法》最新53页技术报告

2022 年 7 月 9 日 专知

本报告重点讨论了如何利用模拟或生成模型创建的合成数据来解决深度学习的数据挑战。这些技术有很多优点：1）可以为现实世界中难以观察到的罕见情况创建数据；2）数据可以在没有错误的情况下被自动标记；3）数据的创建可以很少或没有侵犯隐私和完整性。

合成数据可以通过数据增强等技术整合到深度学习过程中，或者在训练前将合成数据与真实世界的数据混合。然而，本报告主要关注迁移学习技术的使用，即在解决一个问题时获得的知识被迁移到更有效地解决另一个相关问题。

除了介绍合成数据的生成和转移学习技术，本报告还介绍了实验结果，这些结果对合成数据方法在飞行员行为克隆、车辆检测和人脸验证任务中的潜力提供了宝贵的见解。实验的初步结果表明，军事模拟器和生成模型可以用来支持深度学习应用。然而，性能往往受限于合成数据和真实世界数据之间的保真度差距。

1 引言

深度学习（DL）是一种技术，它提高了在广泛的现实世界应用中实现复杂任务自动化的能力。翻译、转录、视频监控、推荐系统和自动驾驶汽车都是基于DL的解决方案已经被开发和部署用于商业目的的例子。在军事领域，DL有可能支持人类在所有领域和战争级别的决策，其应用包括自动目标识别、预测性维护和无人驾驶车辆的自动控制。

与其他机器学习（ML）技术类似，DL使用算法来从数据中提取知识。在这种情况下，知识被编码在大容量的深度神经网络（DNNs）中，这些网络可能由数千、数百万甚至数十亿的可调整参数组成，这取决于所考虑的任务的复杂性。为了正确调整这些参数，学习算法需要大量的训练数据。没有这些数据，DNN将无法泛化，因此，当遇到以前未见过的数据时，它将不会有好的表现。

获取DL的训练数据是困难的。这在商业应用中是存在的，而在军事领域更是如此。瓶颈之一是，学习算法通常需要经过人工标注的数据（即为每个输入数据点提供一个正确的答案）。因此，即使在获取大量输入数据相对低成本的情况下，正确标记所有的数据也往往是高成本和费时的。例如，Cityscapes数据集中的5,000个样本中，每个样本平均需要1.5个小时来标注（整个数据集大约需要十个月）[1]。此外，由于标注是由人类来完成的，其结果可能是不正确的、有偏见的甚至是有成见的，这也会反映在训练过的模型的行为上。

此外，训练数据往往存在长尾分布的问题。也就是说，对于数量有限的普通案例，训练数据相对容易获得，但对于大量重要的边缘案例，训练数据本身就很难获得。例如，考虑一个基于无人机的军用车辆监视和跟踪系统。在这种情况下，友好车辆的空中图像相对容易获得。车辆数据可以在不同的地点、高度、角度、天气条件、环境等方面获得。获取代表合格敌方车队的类似现实世界的数据集通常是不可能的，因为这种侵入性的情报行动会导致对手的行动。使用遵循长尾分布的数据集训练的系统通常实用价值有限，因为它只能在条件理想时使用（即，输入数据与常见情况相似）。当遇到代表边缘案例的真实世界的数据时，该系统将不会有好的表现，也不能被依赖。