本报告描述了Draper团队作为DARPA能力感知机器学习(CAML)项目的一部分,根据HR0011-20-C-0032号合同所开展的研究。Draper与分包商UT Austin、ASU和CU Boulder合作,开发了ALPACA(能力感知的概率和抽象自主学习),这是一个能力感知自主智能体的一般框架,特别是那些基于强化学习(RL)的智能体。ALPACA提供了对RL智能体能力的洞察力,并使用户能够检查和约束智能体行为,促进与人类队友建立信任,并极大地提高现实世界应用的安全性。
一个支持ALPACA的自主智能体可以:
ALPACA通过两种方式进行能力交流:
1.一般能力声明描述了以前观察到的智能体的策略、性能和行为状况。
2.具体的能力评估预测智能体在特定场景下的策略和表现,包括任务前和在线的情况。这些评估对用户的兴趣有反应,可以解决新的场景,并且可以在线更新。
为了实现DARPA CAML计划的目标,Draper ALPACA团队开发了以下关键技术进展:
Draper ALPACA团队在两个基于模拟的RL应用系统上研究、演示和评估了这些进展:推土机机器人操纵任务和多变天气下的无人机飞行任务。内部和第三方的核查和验证表明,该团队能够实现DARPA为CAML项目制定的所有目标指标。