自 2013 年以来,应美陆军负责采购、后勤和技术的助理部长的要求,美国陆军研究实验室每年都会举行一系列会议。这些会议旨在探索新的科学机遇,从而为陆军在未来的冲突中提供优势。这些探索的时间范围具有战略意义,时间跨度约为 20 至 30 年。这些会议特别关注确定可能阻碍实现潜在新型能力的研究差距和障碍,以及克服这些差距和障碍的可能方法。这些会议被称为陆军科学规划和战略会议。本报告涵盖了2018财年上半年举行的4次会议的结论和建议,涉及以下主题:物理世界的推理与互动、复杂数据环境中的学习与推理、社会动态的感知与建模以及不确定性量化。
在陆军作战环境中,暴力抗议、大规模社会影响、暴力极端主义、联盟形成、大规模运动分裂和人口突然(不)迁移等社会现象给作战人员带来了挑战。然而,目前的科学基础缺乏以下能力:1)客观测量大规模集体从一种状态(如和平抗议)向另一种状态(如暴力大规模抗议)的转变;2)对这些跨文化转变进行因果和预测建模。
与观察和调查等往往充满偏见的传统方法相比,地理空间传感器、生物识别技术、公用设施使用跟踪和多媒体数据等新的传感能力使测量社会行动的方法更加客观。感知微观(个人和小群体)和宏观(大规模集体和人口)层面变化的机会越来越多。然而,由于多种传感器在时间和空间上的能力差异巨大,迄今为止,只有相对粗放的尝试将多种类型的传感器整合在一起。
目前正在开发复杂的建模方法和新的统计技术,以更准确地反映大规模行动的分布情况,以及从一种集体状态到另一种集体状态的经常是间歇性的转变。越来越多的人认识到,集体行动往往不是正态分布的,而且往往是从一种状态突然转变到另一种状态。通常情况下,社会动态分布中的罕见事件/行动才是最值得关注的,也是风险最大的。
最有希望的研究是从传统的社会科学统计方法转向从物理学、自然科学和计算机科学中汲取的建模方法,以捕捉复杂的人群行为。然而,正常的研究周期似乎缺少验证。
在探讨的两个重点领域中,“人工智能中的信任 ”都是一个主要的技术差距。这包括一些有待研究的开放性问题,其中包括算法(尤其是自适应或在线学习)的验证和核查(V&V)、为人工智能提供现实的期望值,以及学习个人对合作和风险分析的偏好。对已部署的人工智能失去信任将导致在实地使用时遇到阻力。与信任问题密切相关的是对已部署的自适应人工智能算法在所学任务上的持续验证以及对预期行为的验证。
陆军组织内部有大量现有数据集;这些数据集来自实地测试、实验室测试和部署的系统。参加 ASPSM 的大多数陆军人员都提供了各自设施内现有数据集的清单。面临的挑战是,这些数据集没有集中整理,通常包含未标注的数据,格式各异,质量和价值不明或有限。学术界和工业界在很大程度上依赖于标注过的、大量的、干净的数据集来进行学习,而陆军在这方面却面临着真正的差距。
在边缘部署人工智能--在人工智能、计算和通信必须驻留的战术地点--存在着重大的技术差距。战场上的传感器越来越多,而网络将这些数据传输到需要点的能力却没有相应提高。尽管人们一直认为这是一项挑战,但会议再次强调了这一问题的严重性,以及当前对在尽可能靠近数据收集点的地方部署人工智能的需求增长。
将不确定性量化(UQ)实践纳入数据收集,将使研究人员能够跟踪这些数据的质量(如保真度、分辨率、局限性),并通过更多数据更新对决策的信心/信任;UQ 是解决从这些数据中进行机器学习的信心问题所必需的。UQ 可以指导哪些地方需要额外数据来提高人工决策或预测的输出确定性。它是一种检测数据中可能具有欺骗性质的异常情况的方法,也是一种追踪罕见事件的方法,而从转移的知识(先前训练过的数据)中进行机器学习很可能会忽略这些罕见事件。
已经出现了用于评估特定设计、行动方案和公共危险的工具。这些工具包括条件风险值(CVaR,又称超四分位风险)、分布稳健(数据驱动)优化、风险四边形(风险知情建模)和基于容量的 UQ。这些方法尤其适用于可以轻松量化单一目标,即感兴趣的数量(QoI)的问题。将这些方法应用于异常检测,从而制定对抗性缓解方案,并预测低概率/高成本事件,这并非易事,但却大有可为。
认识到从物理感知建模到机器学习再到决策所带来的机遇,有必要建立一个整体框架,将不确定性与风险结合起来,平衡信息、知识、资源和信任等参数。这就要求对不确定性和风险表示采用可量化的衡量标准,以补充人机交互模型,包括信任模型。有必要对这一框架的不确定性进行持续学习和评估,以考虑信息退化、恶意信息插入、密集信息与稀疏信息以及处理权衡(超载/欠载)等问题。