摘要:本文摘自兰德报告《人工智能和机器学习在防御性空间对抗中的应用:决策支持工具能力演示》,主要对兰德研究人员设计的基于人工智能和机器学习的一款决策支持工具进行介绍。首先,文章阐明该工具的研究背景是作为美国太空部队太空作战架构的一个子功能;其次,文章概述该工具的改进之处主要在于建模和模拟(M&S)的改进、对决策延迟影响的评估、人工智能/机器学习模型架构的改进3个方面;最后,文章对该工具的用户界面进行演示,并提出潜在的可改进之处在于提供可靠的态势感知数据和信号。
关键词:人工智能,机器学习,防御性空间对抗,美国太空部队,决策支持
背景情况
报告指出,美国太空部队(USSF)正在实施一项太空作战架构(Space Warfighting Construct),以为潜在的太空冲突做好准备。该架构的其中一个子功能是为作战人员提供用于防御性空间对抗(DCS)的工具,帮助他们快速制定有效的天基行动方案(CoA),以应对敌方针对己方太空资产的活动。该项目基于2019财年的兰德空军项目,通过开发和演示基于人工智能(AI)/机器学习(ML)的防御性空间对抗决策支持工具样本,探讨了人工智能/机器学习的价值。本文介绍了兰德公司研究人员开发及改良的基于人工智能/机器学习的决策支持工作流程,并讨论了驱动防御性空间对抗决策支持工具的人工智能/机器学习模型的技术细节。
防御性空间对抗要求快速策划一系列活动,包括在协调美军多种行动的同时持续保持对敌方活动的感知。高效的防御性空间对抗或将依赖先进的计算和决策支持工具,以协助太空操作人员在时间有限的情况下规划、评估、遴选和执行复杂的行动方案。
美国太空部队要求兰德空军项目评估将人工智能/机器学习工具用作辅助决策工具的可能性,以帮助太空作战人员应对己方太空系统遭受攻击的状况。2019财年的项目已通过概念验证,确立了人工智能/机器学习在防御性空间对抗中潜在的可行性。然而,如何提高此类工具的性能以及如何将此类工具纳入防御性空间对抗工作流程的问题依然存在。
如何改进和使用该工具
该工具最显著的技术改进包括:
1.建模和模拟的改进
对用于生成人工智能/机器学习算法训练数据的建模和模拟工具进行的重大改进包括:
2.对决策延迟影响的评估
通过在决策工具中展示决策选项,可以让用户对延迟执行推荐的蓝方(己方)行动方案所产生的影响进行预估。这一功能旨在让用户深入了解某些蓝方行动方案选项稍纵即逝的特点。
以下是行动方案有效性随时间变化的概念图。这些概念图以蓝方行动方案对抗红方(敌方)攻击为例,说明了在时间有限的情况下,选定和设定的阈值如何根据行动方案有效性的风险承受度(黄线)和蓝方资产遭受攻击的概率(橙线)来确定该行动方案是否具有可行性。以提示语“错误!参考源未找到”为例,首先,其描述了一个存在时间窗口的场景,在这个时间窗口内,蓝方鉴于当时的攻击特征描述的置信度,愿意冒险执行该行动方案;随后,其表明如果行动方案有效性的下降率增加时会发生什么状况,说明了考虑到在不确定的情况下使用该行动方案的固有风险,该行动方案可能不适合用于该场景。
图1. 当红方攻击被充分归因时,蓝方行动方案的有效性仍高于阈值
图2. 一旦蓝方对红方攻击进行充分归因,蓝方行动方案的有效性便会迅速降低而导致行动方案无法执行
3.人工智能/机器学习模型架构的改进
2019财年的决策工具采用了生成对抗网络(GAN)模型,该模型成功鉴别出了一组可用的蓝方行动方案。研究人员利用明确的奖励项(改编自“参与者-评价者”强化学习和模仿学习模型概念)来增强生成损失函数,从而升级了学习模型。奖励增强型生成对抗网络计划器(RAGAN-P)这一新模型更有助于识别和选择效用最高的蓝方行动方案。与最初的生成对抗网络方法相比,这一改进能产生预估有效性更高的行动方案。
图3. 2019财年的生成对抗网络模型示意图
决策支持工具用户界面的演示
本部分内容探讨了将人工智能/机器学习的技术力量融入军事行动决策流程的复杂性。防御性空间对抗演示工具的开发凸显了在操作员和计算机工具之间设计有效界面的复杂性。研究人员的工具只是应对这一复杂性的初步手段。
防御性空间对抗工具由两部分组成。第一部分为一个可访问的基于网络的用户界面,用于逐步了解空间对抗的决策环境。第二部分为后端人工智能/机器学习决策支持模型。用户界面可与后端通信,后端则针对用户界面设定的红方空间对抗威胁提供最优的蓝方响应方案。后端模型还包含模拟元素,可为用户提供关于决策延迟如何妨碍响应方案有效性的信息。
以下内容将介绍使用防御性空间对抗工具的预期步骤,从说明红方威胁到分析蓝方响应方案选项。最后,研究人员将探讨潜在的改进和未来的发展方向。研究人员强调,此处描述的用户界面是为后端人工智能/机器学习演示工具而设计的,旨在与该工具共同运行,因此无论如何都不能用作可操作的用户界面。
图4. 防御性空间对抗工具的用户界面“引导页”
1.防御性空间对抗工具的工作流程
研究人员认为,防御性空间对抗工具的使用可分为三个步骤,这在该工具的用户界面上有所体现:
1.设定红方威胁;
2.从人工智能/机器学习工具中选取蓝方响应方案样本;
3.描述单个蓝方响应方案的时滞特征。
第一步:设定红方威胁
研究人员要求用户选择当前的红方威胁。如图5所示,红方行动方案选项包括直接上升式攻击和亚轨道攻击。在实际部署中,该工具需要将任何其他相关的红方威胁作为可选项,还将依靠空间态势感知(SSA)数据管道来自动选择红方行动方案。倘若没有直接输入及时、恰当的空间态势感知数据(如红方的拦截弹轨迹),则该工具的有效性将大打折扣。(无论采用哪种工具或方法,制定蓝方行动方案都需要及时、相关的空间态势感知数据。)
图5. 用户在“模拟”页面根据提示选择红方行动方案
一旦选择了红方行动方案,就必须选择该行动方案的详细参数(如燃料燃尽时的飞行速度和角度,在图6显示为“助推后”速度和角度)对其进行定义。在运行模拟之前,要对参数进行验证,以确保红方威胁可用。点击“验证红方威胁”(靠近图6底部)可检查所选的红方行动方案参数是否代表可用的红方威胁。如果是,系统则会绘制红方的拦截轨迹。如果不是,系统则会显示“验证失败”,且不会提供对应的蓝方行动方案。如果威胁可用,则进入下一步(点击图6底部的“运行模拟”)。
图6. 用户根据提示设定红方直接上升式拦截的参数
第二步:从人工智能/机器学习工具中选取蓝方响应方案样本
点击“运行模拟”,将红方参数提交至后端人工智能/机器学习决策模型。模型会生成一系列蓝方响应方案。每个蓝方响应方案都是针对同一红方威胁潜在的可用行动方案。蓝方可采取的行动包括操纵被攻击的卫星、部署诱饵或发射守护卫星来拦截进攻的导弹。每个蓝方行动方案都会获得相应的任务有效性评分、生成响应方案所需的delta-v(或速度变化量)以及其他特定的行动方案信息,如部署诱饵的数量。
为了让用户了解模型所提供的建议的整体有效性,模型会生成关于全部蓝方响应方案有效性的柱状图。图7显示了人工智能/机器学习模型生成的100个针对同一红方威胁的蓝方响应方案的有效性评分分布状况。
图7. 针对同一红方行动方案的100个蓝方行动方案的有效性评分分布
为了让用户充分了解推荐的每个备选方案,表1列出了部分蓝方行动方案任务有效性每一层面对应的参数值。该列表就好比用户/操作员的行动方案选项“仪表盘”,因为这些选项是按照有效性评分从高到低的顺序排列的。
表1. 人工智能/机器学习模型生成的部分蓝方响应方案列表
这些蓝方行动方案样本是由专门为此任务而设计的后端人工智能/机器学习模型生成的。升级后的奖励增强型生成对抗网络计划器模型架构(如图8所示)结合了用于检查方案可用性的传统“参与者-评价者”强化学习架构(如黄色方框所示)和用于对方案有效性进行评分的奖励增强型生成对抗网络架构(如褐色方框所示)。这种混合架构能更好地捕捉行动方案和应用场景的内部结构,同时还能生成高分的蓝方行动方案。
图8. 奖励增强型生成对抗网络计划器模型包含两个评估器:有效性评分和模仿评分
第三步:描述单个蓝方响应方案的时滞特征
点击仪表盘上的蓝方行动方案,就会生成一个时滞敏感度图(如图9所示)。其目的是详细说明延迟执行响应方案的后果,即等待时间过长可能导致推荐的行动方案失效。
图9. 蓝方行动方案的时滞敏感度
2.潜在的改进
人工智能/机器学习决策支持工具旨在更好地为美国太空部队的防御性空间对抗作战献谋划策。该工具的局限性在于,用户必须手动设定当前存在的红方行动方案。这一额外步骤不仅耗时,还容易导致人为错误。该工具的军事作战版本将采用更直接、更高效的方式,即为模型提供经过正确审核的传感器数据。在获取经过审核的红方行动方案的详细信息后,防御性空间对抗工具就能更及时地做出自动化响应,从而为用户提供正确、有效的行动方案选项。
本文来源:渊亭防务
关注公众号了解更多
会员申请 请在公众号内回复“个人会员”或“单位会员
欢迎关注中国指挥与控制学会媒体矩阵
CICC官方网站
CICC官方微信公众号
《指挥与控制学报》官网
国际无人系统大会官网
中国指挥控制大会官网
全国兵棋推演大赛
全国空中智能博弈大赛
搜狐号
一点号