人工智能在巴以冲突中的应用

摘要：2024年7月4日，英国皇家三军研究所发布评论文章《以色列国防军在加沙使用人工智能：目标错位的案例》。文章提到，新一轮巴以冲突已经持续了9个月，以色列的目标选择和打击机制是目前仍极具争议性的话题之一。以色列在此轮巴以冲突中使用了几种人工智能系统，如快速识别和推荐攻击目标的“福音”（Gospel）人工智能平台，以及生成杀戮名单的“薰衣草”（Lavender）系统等。本文基于上述评论文章，介绍了以色列运用人工智能系统选择和打击目标的全过程，并指出技术可能影响平民死亡的关键环节。

关键词：以色列国防军，加沙，人工智能，机器学习，目标打击

本文将重点介绍以色列运用空投武器击杀目标和动态打击的流程，具体包括情报收集与处理、情报分析、作战规划、法律考量与指挥官批准、战后评估几个环节。在不同的军事部门，目标打击流程有许多共性。但据悉，以色列国防军在加沙地区的目标打击程序，根据不同的领域和指挥官有所不同。

情报收集和处理

在现代冲突地区，以色列在加沙地带维持着最密集的情报网络之一。自占领加沙地带以来，以色列便建立起这一情报网络。加沙武装组织没有任何真正的空中防御，这就让（以色列和非以色列的）有人驾驶和无人驾驶飞机得以执行几乎不间断的监视，生成了大量的电子情报和通信情报。其他形式的情报收集包括卫星图像，地面部队传递的作战信息，以及来自西方政府的各类情报。再加上通过数十年监视建立的巴勒斯坦数据档案，以色列国防军在现代作战环境中拥有近乎完美的情报数据。

在巴勒斯坦希伯伦的一个检查站，一名以色列士兵站在监控摄像头下。

人工智能参与到情报数据处理中

以色列获取的情报数量庞大，但这可能削弱了其将数据转化为可采取行动的建议的能力。来自摄像头、雷达、电话数据和其他传感器的原始数据必须进行分类、筛选，然后下放到相应的部门加以“利用”。手动筛选所有数据是不太可能的，因此为了尽量减少人类分析师的数量并避免因疲劳导致的错误，人工智能通常会参与这一阶段的工作。机器学习（ML）模型可以通过模式识别，从原始数据中提取潜在的相关信息，包括相关的人物或物体、车辆运动，甚至火箭发射。提取出的情报通常被转换成通用格式，然后组合起来，为分析人员提供战场的整体视图。

假设情报的数量与决策的准确性和确定性呈正相关，那么一个能比人类分析师处理更大量数据的情报筛选系统将能减少目标打击过程造成的意外伤亡。然而，要实现这一点，必须要有一个可靠的系统，这个系统既不会频繁地误报（幻觉），同时也不会遗漏相关的情报（错误）。不过，由人类创建、训练和试验的系统，都不可避免地带有人类自身的偏见，后续阶段（如行动和决策）能利用的情报也因此具有局限性。

在人工智能模型的训练过程中通常会对模型进行微调，以避免上述不准确性，但在任何人工智能系统中，偶尔的错误都是不可避免的。尽管如此，在实际应用过程中，没有迹象表明以方采取任何措施纠正其使用的模型。以色列媒体《+972》杂志的报道称，以色列国防军认为“薰衣草”人工智能模型10%的误认率是可以容忍的。

情报分析

筛选出的数据被汇总后，分析师将搜索可采取行动的情报，即追踪此前有记录的目标，或寻找具体可识别的目标。武器/设备的卫星图像，以色列在加沙部署的人脸识别系统记录的目标面孔，以及特定无线电信号的位置等情报信息，都可以用于创建新的目标。

传统的系统每日可以生成50个目标，而“福音”系统每日能够生成100个目标。

人工智能参与到情报数据分析中

人工智能分析模型将解析筛选后的数据，并识别出特定的标识符。这一过程与上述的处理系统相似，但分析模型的专门化程度更高。情报分析可能需要多个模型，每个模型都专注特定类型的分析，例如频谱分析、面部识别、车辆/武器识别，或语音识别。分析模型输出的内容既有基本的情报资料，也有可采取行动的目标。

分析模型不会简单地提供“是”或“否”的二元选择，而是提供正确识别的概率，例如，“X模型以X%的确定性识别到X武装分子”。机器学习擅长这种概率识别的形式。在理想情况下，机器学习可以让目标识别过程更透明、准确。然而，这些优势能否实现，完全取决于模型的使用方式。虽然模型能为分析人员生成正确识别目标的概率（对于模型来说是一件简单的事情），但分析人员和指挥员必须理解模型如何生成目标和正确识别该目标的概率，以及背后的原理。即使一个给定目标的正确识别概率接近100%，识别结果也应该通过其他情报信息（电话信号或人力情报）加以证实。

以色列国防军可能设置了一个阈值来确定是否有必要进行打击。对于准确度高的模型，设置较高的识别阈值将减少因错误的目标识别而导致的平民死亡，而较低的阈值可能导致对平民的无差别攻击。在这一环，可以说人类参与最为重要。从理论上讲，机器学习的处理能力提供了各种情报报告，分析师可以结合这些报告对潜在目标进行严谨描述，从而做出更精确的决策。

然而，相关报道表明，在以色列国防军对加沙地区的目标进行选择和打击时，人类分析师只是粗略地审查模型生成的结果，每个目标的审查时间不到一分钟。这种仓促且浅显的审查背后可能有多种原因，例如对模型自动生成结果的依赖、创建/批准大量目标的压力以及分析师疲劳。同样，机器分析的“处理”阶段也面临错误、幻觉、数据质量和偏见等问题。

对此，以色列国防军的回应表示，其应用的系统仅限于情报管理工具，类似于复杂的情报筛选模型，只输出数据中的相关性，而不是直接创建打击目标。尽管如此，以色列国防军击中的目标数量之多，让人更有理由怀疑，人类分析师并没有充分地参与到每个目标的分析和创建中。即使以方没有使用目标创建系统，分析师也需要了解这些模型工具如何自动整理有关可疑武装分子的情报，以及系统相关运行机制的可靠性。

作战规划

一旦模型确定了一个目标，这个目标或是被添加到目标库中，以便在之后进行监视和打击；或是被发送到指挥系统中制定打击计划并获得批准。在选择最合适的打击手段时，时间和地点的选择需要考虑目标的易受攻击性，以及对目标的家人或所在位置旁观者的风险。打击的方式是通过有人驾驶和无人驾驶飞机投放空对地武器，但在理想情况下，规划者可能会选择多种方式，包括地面火力或使用小型武器进行定点突袭。对这些因素的可接受限制被预定义为某一特定作战行动或一系列作战的交战规则（ROE）。

对于机会目标的动态打击，交战规则通常不那么严格。机会目标通常指具有迫在眉睫的威胁和/或打击窗口有限的目标。这些袭击并未预先计划，而是通过实时识别进行打击，缩短了附带死亡预估（CDE）的时间。以色列国防军显然开始转向更动态的打击，因为其目标库中的目标已被打击殆尽。

在加沙南部的汗尤尼斯，流离失所的巴勒斯坦人逃离家园。

对目标打击造成平民死亡的批评，以色列国防军的回应通常会提到“精确武器”的使用。然而，精确并不等于对目标加以区分。对目标加以区分意味着打击只针对预定目标。一种武器的精度即其击中预定目标的可能性，所以精确武器即击中目标的可能性很高的制导炸弹、火箭或炮弹。以色列涉嫌使用的2000枚GBU-31型（2000磅重）炸弹在配备“杰达姆”（JDAM）制导套件时，打击精度较高；精度越高，所需武器减少，造成的破坏就更少。但这并不意味着这些打击对目标加以区分。虽然在城市地区进行打击很难不造成任何附带伤害，但选择GBU-31型炸弹（即使是1000磅重的GBU-32型炸弹或各种500磅重的炸弹）这样具有大面积影响的爆炸性武器，表明以方有意不对目标加以区分。例如，900公斤重的炸弹致命半径达数百米，并且可以制造几米深的弹坑。

另外，武器的选择也取决于不同武器的可得性。尽管大型空投武器的有效载荷更大，因此其目标区别能力更弱，造成的伤害更大；但由于其价格较低，大型空投武器通常是首选。

人工智能可能参与到作战规划中

目前尚不清楚以色列国防军是否在作战规划阶段或在动态目标打击期间应用机器学习系统。理论上，交战规则可以编入机器学习系统，从而为分析师提供打击影响的预测。以色列国防军还声称，鉴于以色列情报的先进和复杂程度，无论是由人类专家还是机器生成的附带死亡预估数据，都没有理由怀疑其准确性。

理想情况下，为作战规划打造的人工智能模型能让分析师更快地看到不同武器和地点的选择对平民的影响。在此基础上，如果正确遵守《武装冲突法》，模型将能帮助降低平民死亡人数，甚至完全取消打击行动。以这种方式，模型不会被视为人类分析师的替代品，而是成为作战规划的工具。

法律考量与指挥官批准

在作战规划和指挥批准阶段，对军事打击行动的法律考量决定了行动是否遵守《武装冲突法》（LOAC）。任何单一打击行动的合法性（依据“诉诸战争权”）主要取决于其是否符合相称性的原则。相称性原则指的是战争取得的正面价值应大于其导致的负面后果。由于相称性具有主观性质，杀害平民的合法性在《武装冲突法》中仍然是一个有争议的概念，这体现了合法性与道德之间的矛盾关系。

除了相称性原则之外，进攻者在攻击敌方目标时必须采取“可行的措施，以尽量减少对平民的伤害”。与其他冲突相比，以色列每次轰炸造成的平民死亡率很高。这凸显出以方没有采取足够的预防措施，例如上文提到的武器选择和打击时间选择方面的作战考虑。

交战规则和《武装冲突法》的关系

目前尚不清楚以色列在其目标选择和打击过程中的具体法律考量。传统来说，在作战规划期间应咨询法律顾问，以色列国防军的军事法律顾问团（MAG）则扮演这一角色。但考虑到以方空袭的数量庞大（特别是在冲突初期），法律顾问严格审查每一次空袭的可能性很低。因此，“法律建议”可能直接简化为“是”或“否”的选择，以决定预测的死亡率是否符合“可接受的”比率。

以色列指挥官很可能没有对每次袭击进行深入的相称性评估，而是依赖于“预先设定的、固定的附带损害程度”，即指挥官会得到一些数值，这些数值代表在袭击中可以作为附带伤害杀死的最大“可接受”平民数量。数值大小因目标而异。例如，据称，以方规定打击每个“低级别武装分子”可以牺牲15-20名平民，而打击一个更高级的指挥官则可以牺牲100多名平民。指挥官只有在获得上级批准的情况下，才能为打击“更高价值”的目标造成更大数量的伤害。

人工智能难以进行实际法律考量

除了附带伤害预估的数值是否由模型生成，以及如何生成的问题之外，这一阶段的所有其他责任都在于人类参与者。由于需要复杂的、通常是抽象的推理，以及法律界对军事人工智能的持续担忧，将《武装冲突法》编程到模型中不太可能。因此，不管是由分析师还是人工智能模型创建的打击建议，指挥官都必须理解其背后的逻辑和依据。

战后评估人工智能模型需结合战后评估不断改进

任何打击或作战行动之后都需要进行分析，以厘清成败得失。战损评估判断打击是否成功地消灭了目标，而分析师则进行附带损害评估，以确保在未来的打击中减少平民伤亡（前提是打击针对的是明显的军事目标）。自主模型可以执行其中一些任务，包括分析有关打击的情报，为指挥官和分析人员提供见解。无论是由人类分析师还是机器模型产出的见解，都应该输入到模型的“处理”和“分析”阶段，从而在模型内形成一个反馈循环。如果没有持续的反馈和改进，模型不仅永远无法超越其初始能力，而且会无限重复偏差和错误，并且随着模型性能下降，情况可能会变得更糟。

然而，以色列国防军似乎并不打算从本轮巴以冲突的打击中吸取教训。依据加沙记者和卫生部的报道，以及以色列国防军对被围困地区的持续监视，核实具体袭击造成的死亡人数对以色列来说并非难事。而以色列国防军继续大规模杀害无辜平民的行为可能会让人认为，要么以方不认为其行径是错误的，要么以方对造成的伤害漠不关心。《+972》杂志的报告甚至声称，以方取消了对初级武装分子的伤害评估。虽然平民死亡率相对于冲突的头几个月有所下降，但这主要是国际压力的结果，而非出于以色列国防军的人道主义关切。只有当以色列政府面临其日益减少的盟友的强烈反对时，才可能有意愿审查相关程序。

结论

在目标选择和打击过程中使用人工智能本身并不是不人道的，但这完全取决于如何训练、测试和使用相关模型。在以色列国防军对人工智能的使用中，很明显的一点是，其使用的系统不是为了提高目标打击的精确度，而是为了扩大目标选择范围和加快目标打击过程。

虽然技术可以改变军事行动的速度或规模，但在准确识别和打击目标，以及对目标加以区分的过程中，若是出现任何失败，都必须完全归咎于人类的选择，而不是“甩锅”给技术。

古典风资讯网

渊亭聊武器