近年来,人工智能(AI)和机器学习领域的进步为增强人类能力和提高各种自主系统的功能创造了前所未有的机遇,包括在国际安全领域。然而,在国防领域,训练日益复杂的人工智能系统所需的高质量、高度多样化和相关的真实世界数据集却十分稀缺。因此,合成数据正逐渐成为开发和训练人工智能系统的数据工具箱中必不可少的工具。合成数据的特点和潜在优势,以及该技术在各个领域的成熟应用,使其成为围绕在国际安全背景下使用人工智能的辩论的一个相关话题。
本入门指南简要概述了合成数据,包括其特点、生成方式、增加的价值、风险以及在国防组织和军事行动中的潜在用例。此外,本手册还概述了现有的数据挑战和限制,这些挑战和限制促使合成数据成为开发日益复杂的人工智能系统的重要工具。
迄今为止,合成数据在国际安全领域的应用大多停留在实验和探索阶段。不过,合成数据的特点可对训练人工智能系统产生有益影响。特别是,合成数据可以生成高度多样化甚至新颖的数据集,对数据属性进行精细控制,必要时自动注释或标记数据,而且成本效益高。这本入门书探讨了合成数据的主要特点如何使军队和国防组织受益,让他们能够在防御性和进攻性自主系统中集成能力更强、更可靠的人工智能系统。
虽然合成数据有利于训练人工智能系统,并有助于缓解军队和国防组织面临的一些数据问题,但它并不是灵丹妙药,也伴随着风险和挑战。使用合成数据所带来的好处将取决于各组织是否有能力驾驭这些风险,以便以负责任和安全的方式并按照法律要求和道德价值观使用根据合成数据训练的人工智能系统。
图1所示。真实世界与合成数据