跳至主要内容

从本地 RADIUS (NPS) 迁移到 RADIUS as a Service

本权威指南详细介绍了从本地 Microsoft Network Policy Server (NPS) 迁移到云原生 RADIUS as a Service 模型的架构设计、实施方法和业务影响。它为 IT 领导者和网络架构师提供了实用的框架,以减少运营开销、消除单点故障并确保分布式场所的企业级身份验证安全。

📖 5 分钟阅读📝 1,066 🔧 2 应用实例3 练习题📚 8 关键定义

收听本指南

查看播客转录
播客脚本:从本地 RADIUS (NPS) 迁移到 RADIUS as a Service 时长:约 10 分钟 | 配音:英国英语,男声,资深顾问语气 --- 第 1 部分:引言与背景 欢迎来到 Purple WiFi 技术简报系列。今天,我们将探讨一项目前正处于许多企业 IT 团队规划路线图上的迁移任务:从本地 RADIUS(特别是 Microsoft 的 Network Policy Server)迁移到云托管的 RADIUS as a Service 模型。 如果您正在管理酒店集团、零售物业、体育场或公共部门园区的 WiFi 身份验证,这与您直接相关。本地 NPS 模型已经为我们服务了近二十年,但运营开销、单点故障风险以及扩展限制正变得越来越难以接受——特别是当云原生替代方案现在能以总拥有成本的一小部分提供企业级可靠性时。 在接下来的十分钟里,我们将介绍这两种方法的技术架构,逐步讲解结构化的迁移方法,分析两个真实的实施场景,并以您自信做出决策所需的关键决策框架结束。 让我们开始吧。 --- 第 2 部分:技术深挖 首先,让我们确保我们在 RADIUS 在您的网络栈中的实际作用上达成一致。RADIUS(Remote Authentication Dial-In User Service)是 RFC 2865 中定义的协议,用于处理网络访问的身份验证、授权和计费。在 WiFi 环境中,它是 IEEE 802.1X 基于端口的访问控制的骨干。当设备连接到 WPA2-Enterprise 或 WPA3-Enterprise SSID 时,接入点充当 RADIUS 客户端(我们称之为网络访问服务器,即 NAS),并将身份验证请求转发给 RADIUS 服务器。服务器通常会针对 Active Directory 或 LDAP 目录验证凭据,并返回 Access-Accept 或 Access-Reject 响应。这就是基本流程。 现在,在本地 NPS 模型中(Network Policy Server 是 Microsoft 随 Windows Server 捆绑的 RADIUS 实现),您是在自己拥有、维护的数据中心或服务器机房的硬件上运行该身份验证逻辑。NPS 服务器保存着您的网络策略、用于 EAP-TLS 或 PEAP-MSCHAPv2 的证书基础设施以及连接请求策略。它确实有效,也很成熟。但它带来了一系列随着时间推移而累积的运营现实问题。 首先是硬件依赖。您的 NPS 服务器是一台物理机或虚拟机,需要打补丁、容量规划以及最终的硬件更新。在多站点部署中(例如,在英国各地拥有物业的酒店集团),您要么运行具有 WAN 依赖关系的集中式 NPS,要么在每个站点部署 NPS 实例并分别进行管理。这两种方式都不够优雅。 其次是可用性。单个 NPS 实例是您整个身份验证基础设施的单点故障。是的,您可以部署 NPS 故障转移对,但这会使您的硬件和许可开销翻倍,并且仍然无法提供云服务原生提供的地理冗余。 第三是可扩展性。NPS 是为企业 LAN 环境设计的。当您在体育场活动或会议中心高峰期间处理数千个并发身份验证请求时,单个 NPS 实例的吞吐量限制就会变得非常明显。身份验证延迟激增,用户在您最无法承受的时刻遇到连接失败。 RADIUS as a Service 从架构上解决了所有这三个限制。云 RADIUS 提供商运行一个分布式的、地理冗余的 RADIUS 服务器集群。您的接入点指向云托管的 RADIUS 端点,而不是本地服务器。身份验证请求在集群中进行负载均衡,故障转移是自动且透明的。提供商负责处理补丁、容量扩展和证书管理。从您作为网络运营商的角度来看,RADIUS 变成了一种消费服务,而不是一个托管组件。 身份验证协议本身并没有改变。您仍然根据客户端设备组合运行带有 EAP-TLS、PEAP-MSCHAPv2 或 EAP-TTLS 的 IEEE 802.1X。不同之处在于 RADIUS 服务器所在的位置以及谁负责其运营连续性。 这里有一个重要的安全考虑,我想直接说明,因为在几乎每一次与客户的对话中都会提到它。将 RADIUS 移至云端意味着您的身份验证流量正在穿越公共互联网以到达云 RADIUS 端点。这可以通过两种机制来缓解。首先,Network Access Server 和 RADIUS 服务器之间的 RADIUS 流量使用共享密钥和基于 MD5 的消息认证进行保护。其次,对于现代部署而言更重要的一点是,您应该运行 RadSec(即 RFC 6614 中定义的 RADIUS over TLS),它将整个 RADIUS 对话封装在 TLS 隧道中。这为您提供了等同于 HTTPS 的传输层加密,消除了 MD5 漏洞,并在 NAS 和 RADIUS 服务器之间提供了双向身份验证。任何值得考虑的云 RADIUS 提供商都应将支持 RadSec 作为标准配置。 在身份集成方面,云 RADIUS 服务通常支持通过 LDAPS 连接回您的本地 Active Directory,或者通过 SAML 或 SCIM 与 Azure Active Directory 和 Entra ID 进行原生集成。这意味着您不需要迁移用户目录——云 RADIUS 服务会查询您现有的身份库,从而维持您现有的用户生命周期管理流程。 对于注重合规性的组织(包括根据 PCI DSS 处理支付卡数据或根据 GDPR 处理个人数据的任何组织),获得 SOC 2 Type II 认证和 ISO 27001 认证的云 RADIUS 提供商提供了比大多数组织通过自主管理 NPS 基础设施所能达到的更强的合规性水平。 --- 第 3 部分:实施建议与常见陷阱 好的,让我们来谈谈如何在不让身份验证基础设施下线的情况下实际执行此迁移。 我推荐的方法是五阶段法。第一阶段是审计和盘点。记录每个 RADIUS 客户端(每个接入点、每个交换机、每个 VPN 集中器)以及它当前使用的共享密钥、它正在使用的 EAP 方法以及您的 NPS 策略中的任何厂商特定属性。这是枯燥的工作,但跳过它通常是迁移失败的第一大原因。 第二阶段是试点部署。启动您的云 RADIUS 实例,并将非生产 SSID 或单个测试站点指向它。验证您的 EAP 方法是否端到端工作,您的身份集成是否正常运行,以及您的计费数据是否正确传输。 第三阶段是并行运行。这是关键的风险缓解步骤。将您的接入点配置为同时将本地 NPS 服务器和云 RADIUS 服务器作为身份验证目标,并将云服务设为主服务器,NPS 设为备用服务器。在整个业务周期中,以此配置运行至少两周。监控身份验证成功率、延迟以及任何策略差异。 第四阶段是切换。移除 NPS 备用配置,并承诺将云 RADIUS 作为您唯一的身份验证基础设施。在计划的维护窗口期间执行此操作,并准备好经过测试的记录在案的回滚程序。 第五阶段是停用。在验证切换后稳定运行三十天后,停用 NPS 服务器并回收硬件或虚拟机资源。 我最常看到的陷阱是:证书信任链问题——具体来说,客户端设备不信任云 RADIUS 服务器的证书,因为 CA 不在它们的受信任存储中。在切换之前,通过您的 MDM 或组策略解决此问题。第二个常见陷阱是防火墙规则。云 RADIUS 要求从您的接入点到云端点开放出站 UDP 1812 和 1813,或者为 RadSec 开放 TCP 2083。确保您的网络边界允许这些流量。第三:共享密钥复杂性。如果您现有的 NPS 共享密钥较弱,请利用迁移的机会轮换为加密强度高的密钥,或者更好的是,迁移到 RadSec 并完全消除共享密钥。 --- 第 4 部分:快速问答 让我快速解答一下我最常收到的关于这个主题的问题。 我们能把 Active Directory 保留在本地吗?是的,完全可以。云 RADIUS 通过 LDAPS 连接到您的本地 AD。您的目录仍保留在原处。 如果我们的互联网连接中断会怎样?这是关键的依赖关系转移。使用云 RADIUS,互联网连接成为身份验证的依赖项。通过冗余 WAN 链路或在中断期间为已知设备缓存身份验证的本地 RADIUS 代理来缓解此问题。 这会影响我们的 PCI DSS 合规性吗?迁移到经过认证的云 RADIUS 提供商通常会改善您的合规性水平。确保您的提供商能够提供 SOC 2 Type II 报告,并将其纳入您的年度 QSA 评估范围。 完整迁移需要多长时间?对于单个站点,需要两到四周。对于拥有五十个或更多地点的多站点资产,请计划通过分阶段推广进行三到六个月。 --- 第 5 部分:总结与后续步骤 总结一下:从本地 NPS 迁移到 RADIUS as a Service 的理由在运营、财务和合规性方面都非常充分。当通过结构化的并行运行阶段执行时,迁移本身是低风险的。关键的技术决策是您的 EAP 方法选择、您的身份集成方法,以及是否为传输安全实施 RadSec(我强烈建议在任何新部署中实施 RadSec)。 您眼前的后续步骤:对您当前的 RADIUS 客户端和策略进行审计,联系您的云 RADIUS 提供商以获取试点环境,并在开始之前检查您的防火墙规则和证书信任链。 对于运行 Purple WiFi 访客接入平台的组织,RADIUS as a Service 功能可直接与访客 WiFi 身份验证流程集成,为您提供一个同时适用于企业 802.1X 身份验证和访客网络访问管理的单一控制平面,并内置分析和合规性报告。 感谢收听。完整的技术参考指南可在 Purple 网站上获取,如果您准备好向前推进,我们的解决方案团队可为您提供范围界定交流。 --- 脚本结束

header_image.png

执行摘要

近二十年来,微软的网络策略服务器 (NPS) 一直是企业网络默认的 RADIUS 实现方案。然而,随着场所运营商在分布式位置(从零售连锁店到全球酒店集团)的业务扩展,管理本地身份验证基础设施的运营负担已成为一项重大负债。

迁移到 RADIUS 即服务 (RADIUS as a Service) 将身份验证从托管的硬件组件转变为消费型的云服务。这种架构转型消除了独立 NPS 部署固有的单点故障,免去了硬件更新周期,并提供了体育场和会议中心等高密度环境所需的弹性可扩展性。对于 IT 经理和网络架构师,本指南提供了一种厂商中立、结构化的方法论,用于在不影响生产流量的情况下将 802.1X 身份验证迁移到云端,确保符合 PCI DSS 和 GDPR,并将身份验证基础设施的运营成本 (OpEx) 降低高达 80%。

技术深度解析:架构与标准

要理解此次迁移,我们必须首先审视基于 IEEE 802.1X 端口访问控制交付方式的架构转变。

本地 NPS 的局限性

在传统部署中,接入点充当网络接入服务器 (NAS),将身份验证请求转发给本地 NPS 服务器。NPS 服务器评估连接请求策略,针对身份源(通常是通过 LDAP 的 Active Directory)验证凭据,并返回 Access-Accept 或 Access-Reject 消息。

这种模式给现代网络带来了三个关键限制:

  1. 硬件依赖与维护:NPS 需要专用的物理机或虚拟机,需要持续的补丁管理、容量规划和生命周期管理。
  2. 高可用性复杂性:实现冗余需要部署故障转移双机 NPS,这在不提供真正地理冗余的情况下使许可成本翻倍。
  3. 吞吐量瓶颈:在并发高峰期(例如体育场入场或零售黄金营业时间),单个 NPS 实例可能会成为瓶颈,导致身份验证超时和用户体验下降。

云 RADIUS 架构

RADIUS 即服务抽象了身份验证层。云服务商运营着分布式、地理冗余的 RADIUS 服务器集群。NAS 指向这些云端点,请求会自动进行负载均衡。

architecture_comparison.png

传输安全:RadSec 的角色 将 RADIUS 迁移到云端时,身份验证流量会通过公共互联网传输。虽然传统 RADIUS 使用共享密钥和 MD5 哈希,但现代部署必须实现 RadSec(基于 TLS 的 RADIUS,RFC 6614)。RadSec 将整个 RADIUS 对话封装在 TLS 隧道中(通常为 TCP 端口 2083),提供等同于 HTTPS 的传输层加密,以及 NAS 与云 RADIUS 端点之间的双向身份验证。

身份集成 云 RADIUS 不需要迁移您的用户目录。服务通常支持通过 LDAPS 连接回本地 Active Directory,或通过 SAML 或 SCIM 与 Azure Active Directory (Entra ID) 进行原生 API 集成。这确保了您现有的用户生命周期管理流程保持不变。

对于利用 Guest WiFi 平台的场所,云 RADIUS 可直接集成,为企业 802.1X 身份验证和访客网络访问提供统一的控制平面,并配有先进的 WiFi Analytics

实施指南:5 阶段方法论

在不中断业务的情况下执行迁移需要结构化、分阶段的方法。

migration_checklist.png

第 1 阶段:审计与盘点

在进行任何更改之前,记录当前状态:

  • RADIUS 客户端:识别每个 NAS(接入点、交换机、VPN 集中器)。
  • 策略:记录现有的 NPS 连接请求和网络策略,包括用于 VLAN 分配的厂商特定属性 (VSA)。
  • EAP 方法:识别正在使用哪些可扩展身份验证协议方法(例如 EAP-TLS、PEAP-MSCHAPv2)。

第 2 阶段:试点部署

配置云 RADIUS 实例并配置非生产 SSID 或单个测试站点。验证身份目录集成(例如 Entra ID 同步),并确保 EAP 方法端到端正常工作。

第 3 阶段:并行运行(风险缓解)

配置生产 NAS 设备以同时使用云 RADIUS 服务器(主)和传统 NPS 服务器(备用)。运行此配置至少两周。监控身份验证成功率、延迟指标和计费数据流,以便在切换前发现任何策略差异。

第 4 阶段:切换

在计划的维护窗口期间,从 NAS 设备中移除传统的 NPS 备用配置。完全投入云基础设施。确保您的回滚程序已记录并经过测试。

第 5 阶段:退役

在稳定运行 30 天后,安全地退役传统 NPS 服务器并回收计算资源。

最佳实践与合规性

在设计云 RADIUS 架构时,请遵循以下标准:

  • 强制使用 RadSec:如果您的 NAS 硬件支持 RadSec (TCP 2083),切勿使用标准 UDP 1812/1813 通过公共互联网发送 RADIUS 流量。
  • 证书信任链:确保客户端设备信任证书ificate Authority (CA) that issued the cloud RADIUS server's certificate. Push the root CA to managed devices via MDM or Group Policy prior to migration.
  • 合规态势:选择保持 SOC 2 Type II 认证和 ISO 27001 资质的云 RADIUS 服务商。这能显著简化您的年度 PCI DSS 评估,特别是对于 零售酒店/餐饮 环境。

如需了解更广泛的网络设计原则,请参阅我们的指南: 企业 WiFi 搭建:2026 年指南 以及 了解 RSSI 和信号强度以实现最佳信道规划

故障排除与风险缓解

故障模式 根本原因 缓解策略
认证超时 防火墙拦截了出站 UDP 1812/1813 或 TCP 2083。 验证边界防火墙规则是否允许出站流量访问云 RADIUS 服务商的特定 IP 地址范围。
证书信任错误 客户端设备的受信任证书存储区中缺少根 CA。 在第 3 阶段(并行运行)之前,通过 MDM/GPO 部署根 CA。
VLAN 分配失败 厂商特定属性 (VSA) 在云策略中未正确映射。 在第 1 阶段,将 NPS 中的 VSA 字符串格式完全复制到云 RADIUS 策略引擎中。
WAN 中断影响 失去互联网连接导致无法访问云 RADIUS。 部署冗余 WAN 链路,或部署本地 RADIUS 代理以缓存已知设备的凭据。

ROI 与业务影响

迁移到 RADIUS as a Service 可带来可衡量的业务成果:

  • 降低成本:消除硬件采购、Windows Server 许可,以及用于打补丁和维护的工程师工时。典型的运营成本 (OpEx) 可降低 60-80%。
  • 可靠性 SLA:云服务商提供有资金保障的 99.99% 可用性 SLA,而单站点 NPS 部署的典型可用性仅为 97-98%。
  • 敏捷性:无需配置本地认证硬件即可立即上线新站点,从而缩短 交通运输 枢纽和 医疗保健 设施的部署周期。

请听我们的高级顾问团队在这篇 10 分钟的简报中讨论其战略意义:

关键定义

RADIUS (Remote Authentication Dial-In User Service)

一种网络协议,为连接和使用网络服务的用户提供集中式身份验证、授权和计费 (AAA) 管理。

企业 WiFi 网络在授予网络访问权限之前用于验证用户凭据的核心协议。

NPS (Network Policy Server)

Microsoft 对 RADIUS 服务器和代理的实现,作为 Windows Server 中的一个角色捆绑在一起。

组织正在积极迁移以减少维护开销的传统本地基础设施。

NAS (Network Access Server)

作为网络网关并将身份验证请求传递给 RADIUS 服务器的设备。

在无线环境中,NAS 通常是 WiFi 接入点或无线局域网控制器。

RadSec (RADIUS over TLS)

RFC 6614 中定义的一种协议,通过使用 TLS 加密的 TCP 连接传输 RADIUS 数据包。

对于云 RADIUS 部署至关重要,以确保凭据数据在传输过公共互联网时被加密。

EAP (Extensible Authentication Protocol)

一种常用于无线网络和点对点连接的身份验证框架。

确定客户端和服务器如何安全地交换凭据(例如,通过 EAP-TLS 的证书,或通过 PEAP 的密码)。

VSA (Vendor-Specific Attribute)

硬件厂商在 RADIUS 协议中定义的自定义属性,用于支持专有功能。

在迁移过程中至关重要;VSA 通常用于将已验证的用户动态分配到特定的网络 VLAN。

LDAPS (Lightweight Directory Access Protocol over SSL)

用于查询和修改 Active Directory 等目录服务的安全协议。

云 RADIUS 服务使用它来安全地查询本地身份库,而无需将用户目录迁移到云端。

802.1X

用于基于端口的网络访问控制 (PNAC) 的 IEEE 标准。

使用 RADIUS 确保只有经过身份验证的设备才能将流量传输到企业 LAN 或 WLAN 上的底层标准。

应用实例

一家拥有 200 家酒店的酒店集团目前在每个站点运行本地 NPS 服务器,用于员工的 802.1X 身份验证。他们正在迁移到 Entra ID (Azure AD),并希望停用本地服务器。他们应该如何进行迁移?

  1. 部署一个通过 SAML/SCIM 与 Entra ID 原生集成的云 RADIUS 服务。
  2. 配置云 RADIUS 策略,将 Entra ID 组(例如“前台”、“管理”)映射到特定的 VLAN VSA。
  3. 在试点酒店,配置接入点使用 RadSec 连接到云 RADIUS 端点。
  4. 通过 Microsoft Intune 将云 RADIUS 服务器的根证书(Root CA)推送到所有员工设备。
  5. 在试点站点运行并行身份验证,然后在其余 199 家酒店中分阶段推广。
考官评语: 这种方法从资产中移除了 200 台物理/虚拟服务器,极大地减少了攻击面和维护开销。直接与 Entra ID 集成消除了建立连接回中央 Active Directory 的复杂站点间 VPN 的需求。

一个可容纳 50,000 人的体育场在重大活动期间,其企业 SSID 经常发生身份验证失败,因为其本地 NPS 服务器无法处理数千台设备同时漫游的吞吐量。

  1. 审计现有的 NPS 策略和 EAP 方法。
  2. 部署一个能够自动扩展以处理高每秒身份验证数 (APS) 的云 RADIUS 服务。
  3. 建立从云 RADIUS 服务到体育场本地 Active Directory 的 LDAPS 连接。
  4. 更新体育场的高密度无线局域网控制器,将云 RADIUS 端点指向为主身份验证服务器。
考官评语: 通过将 RADIUS 处理卸载到云集群,体育场可以利用在活动入场期间动态扩展的弹性计算资源,从而解决瓶颈问题,而无需场馆过度配置昂贵的本地硬件。

练习题

Q1. 您的组织正在迁移到云 RADIUS。安全团队要求不得通过互联网以明文形式或使用已弃用的哈希算法(如 MD5)发送任何身份验证流量。您必须在无线局域网控制器上配置什么协议?

提示:寻找将 RADIUS 封装在 TLS 隧道中的协议。

查看标准答案

您必须配置 RadSec (RADIUS over TLS)。RadSec 在 NAS 和云 RADIUS 服务器之间的 TCP 端口 2083 上建立 TLS 隧道,提供传输层加密和双向身份验证,从而满足安全团队的要求。

Q2. 在迁移的第 3 阶段(并行运行)期间,您注意到用户已成功通过云 RADIUS 服务器进行身份验证,但未被分配到正确的网络段。最可能的配置差距是什么?

提示:RADIUS 服务器如何告诉接入点使用哪个网络段?

查看标准答案

用于动态 VLAN 分配的厂商特定属性 (VSA) 在云 RADIUS 策略中未正确配置。您必须确保在云环境中复制传统 NPS 服务器中使用的确切 VSA 字符串,以便 NAS 知道将哪个 VLAN 分配给用户。

Q3. 客户端设备在针对新云 RADIUS 服务的 EAP-TLS 身份验证中反复失败,但针对传统 NPS 服务器却运行正常。设备日志显示“不受信任的服务器”错误。您该如何解决这个问题?

提示:EAP-TLS 要求客户端信任服务器的身份。

查看标准答案

客户端设备的受信任根存储中没有签发云 RADIUS 服务器证书的根证书颁发机构 (Root CA)。您必须使用移动设备管理 (MDM) 解决方案或组策略将根 CA 部署到客户端设备。