本报告重点讨论了如何利用模拟或生成模型创建的合成数据来解决深度学习的数据挑战。这些技术有很多优点:1)可以为现实世界中难以观察到的罕见情况创建数据;2)数据可以在没有错误的情况下被自动标记;3)数据的创建可以很少或没有侵犯隐私和完整性。
合成数据可以通过数据增强等技术整合到深度学习过程中,或者在训练前将合成数据与真实世界的数据混合。然而,本报告主要关注迁移学习技术的使用,即在解决一个问题时获得的知识被迁移到更有效地解决另一个相关问题。
除了介绍合成数据的生成和转移学习技术,本报告还介绍了实验结果,这些结果对合成数据方法在飞行员行为克隆、车辆检测和人脸验证任务中的潜力提供了宝贵的见解。实验的初步结果表明,军事模拟器和生成模型可以用来支持深度学习应用。然而,性能往往受限于合成数据和真实世界数据之间的保真度差距。
深度学习(DL)是一种技术,它提高了在广泛的现实世界应用中实现复杂任务自动化的能力。翻译、转录、视频监控、推荐系统和自动驾驶汽车都是基于DL的解决方案已经被开发和部署用于商业目的的例子。在军事领域,DL有可能支持人类在所有领域和战争级别的决策,其应用包括自动目标识别、预测性维护和无人驾驶车辆的自动控制。
与其他机器学习(ML)技术类似,DL使用算法来从数据中提取知识。在这种情况下,知识被编码在大容量的深度神经网络(DNNs)中,这些网络可能由数千、数百万甚至数十亿的可调整参数组成,这取决于所考虑的任务的复杂性。为了正确调整这些参数,学习算法需要大量的训练数据。没有这些数据,DNN将无法泛化,因此,当遇到以前未见过的数据时,它将不会有好的表现。
获取DL的训练数据是困难的。这在商业应用中是存在的,而在军事领域更是如此。瓶颈之一是,学习算法通常需要经过人工标注的数据(即为每个输入数据点提供一个正确的答案)。因此,即使在获取大量输入数据相对低成本的情况下,正确标记所有的数据也往往是高成本和费时的。例如,Cityscapes数据集中的5,000个样本中,每个样本平均需要1.5个小时来标注(整个数据集大约需要十个月)[1]。此外,由于标注是由人类来完成的,其结果可能是不正确的、有偏见的甚至是有成见的,这也会反映在训练过的模型的行为上。
此外,训练数据往往存在长尾分布的问题。也就是说,对于数量有限的普通案例,训练数据相对容易获得,但对于大量重要的边缘案例,训练数据本身就很难获得。例如,考虑一个基于无人机的军用车辆监视和跟踪系统。在这种情况下,友好车辆的空中图像相对容易获得。车辆数据可以在不同的地点、高度、角度、天气条件、环境等方面获得。获取代表合格敌方车队的类似现实世界的数据集通常是不可能的,因为这种侵入性的情报行动会导致对手的行动。使用遵循长尾分布的数据集训练的系统通常实用价值有限,因为它只能在条件理想时使用(即,输入数据与常见情况相似)。当遇到代表边缘案例的真实世界的数据时,该系统将不会有好的表现,也不能被依赖。
本报告的目的是介绍可用于解决军事背景下有限训练数据所带来的一些挑战的技术。具体来说,本报告重点讨论如何将使用军事模拟或生成模型创建的合成数据与微调、领域适应、多任务学习和元学习等迁移学习技术结合起来,以加速未来DL在军事领域应用的开发和部署。
本报告的目标读者是操作、获取或开发AI/ML/DL技术,用于或嵌入军事系统的人员。
本报告假定读者具有关于ML和DL概念的基本知识,如监督学习、强化学习、损失函数、梯度下降和反向传播。鼓励缺乏此类知识的读者在继续阅读本报告之前,先阅读FOI-报告FOI-R-4849-SE[2]中的第二章。
第2章概述了在深度学习中可以用来生成和整合合成训练数据的技术和方法。第3章概述了转移学习技术,可以用来促进知识从一个任务到另一个任务的重用。在第4章中,对这些技术的一个子集进行了评估,并提供了深入了解合成数据方法潜力的实验结果。第5章中提出了结论。
图2.2: 一幅战斗机的图像(2.2a)通过添加噪声(2.2b)、滤色器(2.2c)和模糊(2.2d),以及通过缩放(2.2e)和缩放后的旋转(2.2f)得到增强。每幅图像都附有所有像素的平均RGB值分布的相应图表。虽然所有图像在语义上是不变的,但分布的形状却有很大的不同。
图4.7:从我们的训练数据集中随机选择的合成图像。对于每一对图像,左边显示的是最初生成的脸,右边显示的是编辑过的脸。请注意,所有图像都在脸部周围进行了裁剪。