北约网络安全防御演习：Locked Shields

Source

网络空间被认为是陆、海、空、天之后的第五战场，各国都在开始使用与研发网络作战武器，网络空间对于国家安全愈发重要。网络安全正在成为国家安全的重要组成部分，各国正在加紧制定国家网络安全战略、建立各种应急处置组织与网络防御应对机构。在这个过程中，网络安全防御演习正在扮演越来越重要的角色。

过去全球42%的网络安全防御演习都位于欧洲，例如欧盟网络与信息安全局（ENISA）每两年在欧盟成员国与欧洲自由贸易联盟（EFTA）成员国间举办Cyber Europe。紧随其后的是北美（尤其是美国）：

亚洲主要是日本、马来西亚、印度与新加坡，紧随其后的是澳大利亚。

Locked Shields 是由北约合作网络防御卓越中心（CCDCOE）组织的年度网络安全演习，被认为是针对实战环境中网络防御技能最密集的测试。2023 年的 Locked Shields 演习在 4 月 17 日到 4 月 21 日举行，从 2010 年开始算起，今年已经是第 13 届。来自 38 个国家的超过三千名人员参与了本次演习。2021 年共有 22 支蓝队参加演习，平均每队有 40 人。2022 年共有 24 支蓝队参加演习，平均每队有 50 人。

2023 年演习构想的场景是：位于北大西洋的岛国 Berylia 的安全局势迅速恶化，出现多次针对该国军用与民用IT系统的大规模网络攻击。这些网络攻击对政府、网络、通信、供水与供电的平稳运行造成了严重干扰，导致该国爆发了公众骚乱与抗议。

2022 年芬兰的蓝队凭借可靠的网络防御能力脱颖而出获得冠军，立陶宛-波兰联合蓝队获得第二名，爱沙尼亚-格鲁吉亚联合蓝队获得第三名。2023年，瑞典-冰岛联合蓝队获得冠军。大国的队伍反而没有取得相对出色的表现，可能是值得研究的课题？美国的蓝队是一如既往的梦幻阵容：2023 年仍由 DISA（国防信息系统局）牵头，共计 120 名专家。来自六所大学、五支国民警卫队、美国网络战司令部（USCYBERCOM）、联合部队总部国防信息网络部（JFHQ-DoDIN）、美国陆军工程兵团（USACE）、美国陆军网络企业技术司令部（NETCOM）、美国欧洲司令部和国土安全部网络安全和基础设施安全局（CISA）。

CCDCOE 主任 Mart Noorma 认为，“没有任何网络安全防御演习能够像 Locked Shields 这样提供如此专业与逼真的体验”。演习力求模拟实际环境，包括银行、电力、供水、卫星与通信网络等，甚至还包括系统的实际使用用户。2021 年的演习中增加了智能电网调度系统、空对空加油系统与无人机控制系统，2022 年的演习中甚至还模拟了央行的储备管理与金融信息系统和最新的 5G 通信平台。

Locked Shields 被认为是世界上规模最大、最复杂、技术最先进的实战演习，体现在各方各面。仅组织人员（绿队、黄队与白队）合计超过 400 人，花费超过 10 万小时进行准备活动，创建超过 5500 个虚拟系统用作演习环境。2023 年的演习也配备了一只强大的、水平高超的红队，针对来自 32 个国家的 24 支蓝队发起攻击。

蓝队负责确保信息系统安全免受红队的攻击，不仅包括技术防御，还有法律、政策、战略与媒体方面的配合。除了保卫国家关键信息基础设施，蓝队还要报告安全事件、执行战略决策并且解决取证、法律与媒体方面的挑战。单靠技术专家难以解决网络危机，来自不同政府机构与各行各业的专家要共筑网络安全防线。因为大规模网络攻击可能会迅速升级成为大规模安全危机，所以在策略、法律与危机沟通上也要进行演习才能确保危机发生时做好了准备。

红队要对所有参加演习的蓝队平等地进行攻击，攻击成功即可为蓝队扣分。值得注意的是，许多网络安全防御演习，特别是国际间合作的网络安全防御演习很多都反对评分制度，毕竟得分不是网络安全防御演习的主要目的。但支持者称评分制度可以打造竞争氛围，更好地促进网络防御。前文提到的 ENISA 组织的 Cyber Europe 就不使用评分制度，但 CCDCOE 组织的 Locked Shields 坚持使用评分制度，有机会后面写一篇文章介绍这个评分制度。

绿队负责准备与维护演习系统与基础设施，例如设计、设置并管理计算机、虚拟化平台等核心系统，确保演习过程中这些系统能够正常运行。
黄队首先要为白队提供整体态势情况，随后通报所有参与演习人员。信息来源是蓝队提供的临时报告、红队提供的攻击报告以及系统生成的报告。黄队会定期向白队与蓝队提供最新情况的通报。

白队负责组织演练并执行检查，包括演习目标、演习场景、红队目标、法律框架与媒体沟通等。演习过程中，由白队决定何时进入不同的阶段与红队的攻击节奏。特别的，白队内部有一群被称为“blonde user“的用户，这些无意识的用户可能会无意识地点击恶意链接打开恶意电子邮件与文件。蓝队如果拒绝为这些用户提供服务是违反规则的。

演习获得了如下单位的大力支持：TalTech、Clarified Security、Arctic Security、Bittium、CR14、SpaceIT、Atech、cybensis GmbH、Microsoft、SUTD iTrust Singapore、Fortinet、National Cybersecurity R&D Laboratory、Financial Services Information Sharing and Analsyis Center (FS-ISAC)、HAVELSAN、Deepensive、Estonian Defence Forces、NATO Strategic Communications Centre of Excellence、Forestall、Rocket.Chat、Telia 与 VTT。

值得注意的是，在去年年底，日本正式加入北约合作网络防御卓越中心（CCDCOE）。日本相关组织也参加了 2023 年的演习，例如 JPCERT/CC、NISC 与 NTT 等。

只要能在失败中学到教训、在先进经验中汲取养分，网络安全防御演习中人人都是胜利者，相信这也是演习的初衷和动机。倘若网络安全防御演习退化成为一场大考，把每个参与者都拉进漩涡使其无法自拔，变成一场比拼消耗的盛大狂欢，也但愿每个人都能够求仁得仁。

许多网络安全防御演习，特别是国际间合作的网络安全防御演习很多都反对评分制度，毕竟得分不是网络安全防御演习的主要目的。例如 ENISA（欧盟网络安全局）组织的 Cyber Europe 就不使用评分制度，但 CCDCOE 组织的 Locked Shields 则坚持使用评分制度。

通常网络安全防御演习都被设计成游戏化的竞赛，以提高各方的参与度。合理的评分机制可以提供有价值的反馈，并且维持参与者的热情。不合理的评分机制可能会引发各方的不满，分散参与者对主要目标的注意力。但实际上，网络安全防御演习的规模越大，设计合理的评分机制也就越具有挑战性。衡量评分机制是否合理，通常可以参考四个维度：复杂性、透明度、竞争性与自动化。

简单的评分可以评估已完成的任务与完成任务的时间，快速响应的防御者和快速渗透的攻击者可以获得额外的分数。大规模网络安全防御演习中的任务多种多样，线性评分机制很可能存在较大缺陷。尽管没有通用的解决方案可以让各参与方都满意，但 Locked Shields 的举办方根据多年的经验，总结了与评分机制有关的各种事务。有关评分机制的讨论，可以促进网络安全防御演习向更平衡、更实用、更有趣的方向发展。在评分机制的设计上，往往要考虑以下几点：

网络安全防御演习评分机制的趋势与挑战？
确保网络安全防御演习评分机制平衡性的因素有哪些？
如何在实践中确保这些影响平衡性的因素落实？

由于网络安全防御演习是十分复杂的，简单的评分实际上无法完全反映参与者的实际能力，不同的目标需要不同的评分方法。过去的评分机制多基于 CTF 比赛中，而不是场景更为复杂的红蓝对抗。CTF 比赛的评分往往是基于机密性、完整性与可用性的，但网络安全防御演习的评估需要更多参数，例如成功缓解攻击的数量、信息共享质量等。

Locked Shields 的评分机制包含技术方面与非技术方面，权重（2022 年）大致如下所示：

技术能力当然是最重要的，大约占到七成的分数，技术能力侧重于攻击、数字取证等。非技术能力侧重于“软技能”，例如口头与书面沟通能力等。但不要认为非技术能力中毫无“技术”含量，例如蓝队提交的技术报告中会有法律分析的部分。

蓝队有 1 天的时间熟悉相关网络环境，然后会面临 2 天的红队攻击。Locked Shields 的参与团队都必须互相协作，而且必须与其他团队协作行动。例如，负责电力基础设施的蓝队要保证配电设施的开放。

与服务正常运行相关的总分与攻击总分相等，服务无法正常运行通常是由于蓝队的过度保护造成的。最初的攻击通常针对机密性与完整性，将针对可用性的攻击留到最后。

服务正常运行类分数

与服务正常运行相关的分数共有两部分：Availability 与 Usability。前者由机器自动进行检查，评分会考虑机器的重要性。后者由用户模拟团队中的模拟用户进行检查，用户无法访问时会提交工单，工单未解决的时间越长，扣的分越多。

2021 年开始，Locked Shields 使用Richard 曲线来衡量服务正常运行评分。由于其与实际用户感知类似，最开始用户不太介意，随后耐心会被快速耗尽，最后用户不再关心服务是否恢复。

攻击类分数

与攻击相关的分数共有三部分：Web、网络与客户端。Web 攻击主要针对应用层漏洞，例如Web 表单中存在未过滤的字段。网络攻击主要针对网络层进行攻击，例如针对防火墙中存在缺陷的IPv6 规则。客户端攻击主要针对与人有关的威胁，例如用户模拟团队中的模拟用户会上传文件或者执行文件。

数字取证类分数

通过数字取证工具对事件进行调查，在提供的证据文件中查找恶意活动的痕迹。

报告类分数

报告用于向管理人员、决策人员通报网络状况，包括威胁、状态、关键事件、攻击者与技术挑战。报告主要分为两部分：SITREP（情况报告）与CTIREP（网络威胁情报报告）。

法律与媒体类分数

法律与媒体也十分重要，可以避免蓝队仓促采取可能扩大危机的措施。蓝队必须要考虑立法与沟通上的问题，还需要在媒体上作出回应与解释。

不同团队的任务不同，使用12 分制李克特量表来兼容多种情况。

根据参与者的反馈，与评分制度有关的反馈中 40% 都关注清晰度与透明度。他们觉得并非所有所有攻击都经过充分论证，并且更清晰的反馈可以使参与者快速了解哪些人做对了、哪些人做错了。

例如三支得分相近的蓝队具体如下所示，T1 与T3 在确保服务正常运行上得分更高，但 T2 防御红队攻击则更出色。可能就是由于其采取的防御措施，导致服务正常运行时间受到影响。

在满分 3200 分中获得1600 分的表现，远不如满分360 分中获得350 分。必须结合系统的优先级与重要性来评估分数。在高价值任务中获取一半的分数，但守住了低价值任务，这可能表明团队的优先级存在问题，或者严重缺乏某些能力。

评分的设计可以是递增或者递减的，尽管数学上一样，但往往认为对损失的厌恶比潜在收益更能激励参与者。

有一些任务会被设计成要在指定的截止日期前提交，评分中需要考虑时间带来的紧迫感。当然，由于是团队合作，必须允许存在一定区间的弹性来容忍延迟。此类任务的评估也有两种方法，如下所示：

评分总是很难的。例如如果两个队伍的危机沟通能力类似，但技术能力存在差别。一方在保护网络安全方面表现良好，另一方则明显较差。前者可能没有机会展示其危机沟通能力，这种内在的联系难以体现。

系统性、科学性的评分制度是为了衡量和评估差距与不足，为了考试而应试绝不可取。参与 Locked Shields 的人员都有共识：“这应该是一次训练，不是一场计分比赛”。倘若初心和理想越走越远，耗费了无数资源和人力的大考无法带来教训和养分，也许不可避免地要在一地鸡毛中越来越卷，这可能是所有人都不乐见的。

声明：本文来自威胁棱镜，版权归作者所有。