跳至主要内容

从本地部署 RADIUS (NPS) 迁移至 RADIUS-as-a-Service

本权威指南详细介绍了从本地部署的 Microsoft Network Policy Server (NPS) 迁移到云原生 RADIUS-as-a-Service 模型的架构设计、实施方法和商业影响。它为 IT 领导者和网络架构师提供了实用的框架,以降低运维开销、消除单点故障,并确保分布式场所的企业身份验证安全。

📖 5 分钟阅读📝 1,066 🔧 2 应用实例3 练习题📚 8 关键定义

收听本指南

查看播客转录
播客脚本:从本地 RADIUS (NPS) 迁移到 RADIUS-as-a-Service 时长:约 10 分钟 | 配音:英式英语,男性,资深顾问语气 --- 第 1 部分:引言与背景 欢迎收听 Purple WiFi 技术简报系列节目。今天我们将探讨一项目前正列在众多企业 IT 团队路线图上的迁移任务:从本地 RADIUS - 特别是 Microsoft 的网络策略服务器(NPS) - 迁移到云托管的 RADIUS-as-a-Service 模式。 如果您正在管理酒店集团、零售物业、体育场馆或公共部门园区的 WiFi 身份验证,这与您息息相关。本地 NPS 模式在过去近二十年里一直运行良好,但其运维开销、单点故障风险以及扩展限制正变得越来越难以接受 - 特别是现在的云原生替代方案能够以极低的总拥有成本提供企业级的可靠性。 在接下来的十分钟里,我们将介绍这两种方案的技术架构,详细讲解结构化的迁移方法,分析两个真实的实施案例,最后提供能帮助您自信做出决策的关键决策框架。 让我们正式开始。 --- 第 2 部分:技术深度剖析 首先,让我们确保对 RADIUS 在网络栈中的实际作用达成共识。RADIUS - 远程用户拨号认证系统 - 是 RFC 2865 中定义的协议,用于处理网络接入的身份验证、授权和计费。在 WiFi 环境中,它是 IEEE 802.1X 基于端口的接入控制的基础骨干。当设备连接到 WPA2-Enterprise 或 WPA3-Enterprise SSID 时,接入点充当 RADIUS 客户端(即我们所说的网络接入服务器),并将身份验证请求转发给 RADIUS 服务器。服务器对凭据进行验证(通常是对比 Active Directory 或 LDAP 目录),然后返回 Access-Accept(允许接入)或 Access-Reject(拒绝接入)响应。这就是基本的工作流程。 现在,在本地 NPS 模式中 - 网络策略服务器是 Windows Server 自带的 Microsoft RADIUS 实现 - 您是在自己拥有、维护的数据中心或机房的硬件上运行该身份验证逻辑。NPS 服务器保存着您的网络策略、用于 EAP-TLS 或 PEAP-MSCHAPv2 的证书基础设施以及连接请求策略。它行之有效,技术成熟。但它也带来了一系列随着时间推移而不断累积的运维现实问题。 首先是硬件依赖性。您的 NPS 服务器是一台物理机或虚拟机,需要进行补丁升级、容量规划以及最终的硬件更新。在多站点部署中 - 例如在英国各地拥有物业的酒店集团 - 您要么运行依赖广域网(WAN)的集中式 NPS,要么在每个站点部署 NPS 实例并进行单独管理。这两种方式都算不上优雅。 第二个是可用性。单个 NPS 实例对于您的整个身份验证基础设施来说是一个单点故障。是的,您可以将 NPS 部署为故障转移双机,但这会使您的硬件和许可开销增加一倍,并且它仍然无法为您提供云服务原生提供的地理冗余。 第三个是可扩展性。NPS 是为企业局域网(LAN)环境设计的。当您在体育馆活动或会议中心高峰期间处理数千个并发身份验证请求时,单个 NPS 实例的吞吐量限制会变得非常明显。身份验证延迟激增,用户在您最无法承受的时刻遇到连接失败。 RADIUS-as-a-Service 从架构上解决了所有这三个限制。云 RADIUS 提供商运行着一个分布式、地理冗余的 RADIUS 服务器集群。您的接入点指向云端托管的 RADIUS 端点,而不是本地服务器。身份验证请求在集群中进行负载均衡,并且故障转移是自动且透明的。提供商负责处理补丁、容量扩展和证书管理。从您作为网络运营商的角度来看,RADIUS 变成了一项消费服务,而不是一个需要管理的组件。 身份验证协议本身并没有改变。您仍然根据客户端设备的组合运行支持 EAP-TLS、PEAP-MSCHAPv2 或 EAP-TTLS 的 802.1X。不同之处在于 RADIUS 服务器所在的位置以及谁负责其业务连续性。 这里有一个重要的安全考虑,我想直接说明一下,因为在几乎每一次客户交流中都会提到这个问题。将 RADIUS 迁移到云端意味着您的身份验证流量要通过公共互联网才能到达云端 RADIUS 端点。这可以通过两种机制来缓解。首先,网络接入服务器(NAS)和 RADIUS 服务器之间的 RADIUS 流量使用共享密钥和基于 MD5 的消息身份验证进行保护。其次,也是对现代部署更重要的一点,您应该运行 RadSec - 即基于 TLS 的 RADIUS(在 RFC 6614 中定义) - 它将整个 RADIUS 对话包装在 TLS 隧道中。这为您提供了相当于 HTTPS 的传输层加密,消除了 MD5 漏洞,并提供了 NAS 和 RADIUS 服务器之间的双向身份验证。任何值得考虑的云 RADIUS 提供商都应将支持 RadSec 作为标准配置。 在身份集成方面,云 RADIUS 服务通常支持 LDAP 和 LDAPS 连接回到您的本地 Active Directory,或者通过 SAML 或 SCIM 与 Azure Active Directory 和 Microsoft Entra ID 进行原生集成。这意味着您不需要迁移用户目录 - 云 RADIUS 服务会查询您现有的身份存储库,从而维护您现有的用户生命周期管理流程。 对于注重合规性的组织(包括根据 PCI-DSS 处理付款卡数据的任何组织,或根据 GDPR 处理个人数据的任何组织),获得 SOC 2 Type II 认证和 ISO 27001 认可的云 RADIUS 提供商提供了比大多数组织通过自行管理的 NPS 基础架构所能达到的更强大的合规性态势。 --- 分段 3:实施建议和常见陷阱 好的,让我们来谈谈如何在不让身份验证基础架构脱机的情况下实际执行此迁移。 我推荐的方法是五阶段法。第一阶段是审计和盘点。记录每个 RADIUS 客户端 - 每个接入点、每个交换机、每个 VPN 集中器 - 以及它们当前的共享密钥、正在使用的 EAP 方法,以及 NPS 策略中任何特定于供应商的属性。这是项枯燥的工作,但跳过它是迁移失败的第一大原因。 第二阶段是试点部署。启动您的云 RADIUS 实例,并将非生产 SSID 或单个测试站点指向它。验证您的 EAP 方法是否端到端正常工作,身份集成是否正常运行,以及记账数据是否正确流转。 第三阶段是并行运行。这是关键的风险缓解步骤。将您的接入点配置为同时将本地 NPS 服务器和云 RADIUS 服务器作为身份验证目标,将云服务作为主服务器,将 NPS 作为备用服务器。在整个业务周期内以这种配置运行至少两周。监控身份验证成功率、延迟以及任何策略差异。 第四阶段是切换。删除 NPS 备用配置,并承诺将云 RADIUS 作为唯一的身份验证基础架构。在计划的维护窗口期间执行此操作,并准备好经过记录和测试的回滚程序。 第五阶段是退役。在切换后验证稳定运行三十天后,停用 NPS 服务器并收回硬件或虚拟机资源。 我最常遇到的陷阱是:证书信任链问题 - 具体而言,由于 CA 不在客户端设备的受信任存储中,客户端设备不信任云 RADIUS 服务器的证书。在切换之前,通过您的 MDM 或组策略解决此问题。第二个常见陷阱是防火墙规则。云 RADIUS 需要从您的接入点到云端点的出站 UDP 1812 和 1813,或者用于 RadSec 的 TCP 2083。确保您的网络边界允许此流量。第三:共享密钥的复杂性。如果您现有的 NPS 共享密钥较弱,请利用迁移的机会轮换为加密强度高的密钥,或者更好的是,转向 RadSec 并完全消除共享密钥。 --- 分段 4:快速问答 让我来解答一下关于这个话题我最常遇到的问题。 我们能把 Active Directory 保留在本地吗?是的,完全可以。云 RADIUS 通过 LDAPS 连接到您的本地 AD。您的目录可以保留在原处。 如果我们的互联网连接中断会怎样?这是关键的依赖性转变。采用云 RADIUS,互联网连接将成为身份验证的依赖项。可以通过冗余 WAN 链路或本地 RADIUS 代理(在断网期间缓存已知设备的身份验证)来减轻这一影响。 这会影响我们的 PCI-DSS 合规性吗?转向获得认证的云 RADIUS 提供商通常会改善您的合规状况。确保您的提供商能够提供 SOC 2 Type II 报告,并将其纳入您的年度 QSA 评估范围。 完整的迁移需要多长时间?对于单个站点,需要两到四周。对于拥有 50 个或更多分支机构的多站点资产,请计划通过分阶段部署进行三到六个月的迁移。 - - 第 5 部分:总结和后续步骤 总结一下:在运营、财务和合规性方面,从本地 NPS 迁移到 RADIUS-as-a-Service 的理由是非常充分的。如果通过结构化的并行运行阶段来执行,迁移本身是低风险的。关键的技术决策包括您的 EAP 方法选择、您的身份集成方法,以及是否实施 RadSec 以实现传输安全 - 对于任何新部署,我都强烈建议实施该安全措施。 您眼前的后续步骤:对您当前的 RADIUS 客户端和策略进行审核,与您的云 RADIUS 提供商联系以获取试点环境,并在开始之前审查您的防火墙规则和证书信任链。 对于运行 Purple WiFi 访客接入平台的组织,RADIUS-as-a-Service 功能可直接与访客 WiFi 身份验证流程集成,为您提供用于企业 802.1X 身份验证和访客网络访问管理的单一控制平面 - 且内置分析和合规性报告。 感谢您的收听。完整的技术参考指南可在 Purple 网站上找到,如果您准备好继续前进,我们的解决方案团队可随时进行范围界定对话。 - - 脚本结束

header_image.png

执行摘要

近二十年来,Microsoft 的网络策略服务器 (NPS) 一直是企业网络默认的 RADIUS 实现方式。然而,随着场所运营商在分布式站点(从零售连锁店到全球酒店集团)进行扩展,管理本地身份验证基础设施的运营负担已成为一项重大负担。

RADIUS-as-a-Service 迁移将身份验证从管理的硬件组件转变为消费型的云服务。这种架构转变消了独立 NPS 部署中固有的单点故障,免去了硬件更新周期,并为体育场馆和会议中心等高密度环境提供了所需的弹性可扩展性。对于 IT 经理和网络架构师,本指南提供了一种与供应商无关的结构化方法,用于将 802.1X 身份验证迁移到云端,且不会影响生产流量,确保符合 PCI-DSS 和 GDPR 规范,并将身份验证基础设施的运营支出降低高达 80%。

技术深度解析:架构与标准

要理解这次迁移,我们必须首先研究 IEEE 802.1X 基于端口的访问控制在交付方式上的架构转变。

本地 NPS 的局限性

在传统部署中,接入点作为网络接入服务器 (NAS),将身份验证请求转发到本地 NPS 服务器。NPS 服务器评估连接请求策略,对照身份源(通常是通过 LDAP 的 Active Directory)验证凭据,并返回 Access-Accept 或 Access-Reject 消息。

这种模式对现代网络带来了三个关键局限性:

  1. 硬件依赖与维护:NPS 需要专用的物理或虚拟机,需要持续进行补丁管理、容量规划和生命周期管理。
  2. 高可用性复杂性:实现冗余需要以故障转移对的形式部署 NPS,这使许可成本翻倍,却无法提供真正的地理冗余。
  3. 吞吐量瓶颈:在并发高峰期(如体育场观众入场或零售繁忙营业时间),单个 NPS 实例可能成为瓶颈,导致身份验证超时并降低用户体验。

云 RADIUS 架构

RADIUS-as-a-Service 抽象了身份验证层。云提供商运营着分布式、地理冗余的 RADIUS 服务器集群。NAS 指向这些云端点,请求会自动进行负载均衡。

architecture_comparison.png

传输安全:RadSec 的作用 当 RADIUS 迁移到云端时,身份验证流量会穿过公共互联网。虽然传统 RADIUS 依赖共享密钥和 MD5 哈希,但现代部署必须实施 RadSec(基于 TLS 的 RADIUS,RFC 6614)。RadSec 将整个 RADIUS 对话封装在 TLS 隧道中(通常为 TCP 端口 2083),提供等同于 HTTPS 的传输层加密,以及 NAS 与云端 RADIUS 端点之间的双向身份验证。

身份集成 云端 RADIUS 不需要您迁移用户目录。服务通常支持连接回本地 Active Directory 的 LDAPS,或者通过 SAML 或 SCIM 与 Azure Active Directory (Microsoft Entra ID) 进行原生 API 集成。这确保了您现有的用户生命周期管理流程保持不变。

对于利用 Guest WiFi 平台的场所,云端 RADIUS 可直接集成,为企业 802.1X 身份验证和访客网络访问提供统一的控制平面,并辅以先进的 WiFi Analytics

实施指南:5 阶段方法论

在不中断服务的情况下执行迁移,需要一种结构化、分阶段的方法。

migration_checklist.png

第 1 阶段:审计和盘点

在进行任何更改之前,记录当前状态:

  • RADIUS 客户端:识别每个 NAS(无线接入点、交换机、VPN 集中器)。
  • 策略:记录现有的 NPS 连接请求和网络策略,包括用于 VLAN 分配的供应商特定属性 (VSA)。
  • EAP 方法:确定正在使用哪些可扩展身份验证协议方法(例如 EAP-TLS, PEAP-MSCHAPv2)。

第 2 阶段:试点部署

置备云端 RADIUS 实例并配置非生产 SSID 或单个测试站点。验证身份目录集成(例如 Microsoft Entra ID 同步),并确认 EAP 方法端到端正常运行。

第 3 阶段:并行运行(降低风险)

将生产 NAS 设备配置为同时使用云端 RADIUS 服务器(主)和传统 NPS 服务器(备用)。保持此配置至少两周。监测身份验证成功率、延迟指标和记账数据流,以便在切换前发现任何策略差异。

第 4 阶段:切换

在计划的维护窗口期间,从 NAS 设备中删除传统 NPS 备用配置。完全过渡到云端基础设施。确保您的回滚程序已记录并经过测试。

第 5 阶段:停用

在稳定运行 30 天后,安全地停用传统 NPS 服务器并回收计算资源。

最佳实践与合规性

在设计您的云端 RADIUS 架构时,请遵循以下标准:

  • 强制使用 RadSec:如果您的 NAS 硬件支持 RadSec (TCP 2083),切勿使用标准 UDP 1812/1813 通过公共互联网发送 RADIUS 流量。
  • 证书信任链:确保客户端设备信任颁发云 RADIUS 服务器证书的证书颁发机构 (CA)。在迁移前,通过 MDM 或组策略将根 CA 推送到受管理设备。
  • 合规态势:选择保持 SOC 2 Type II 认证和 ISO 27001 认证的云 RADIUS 提供商。这可以显著简化您的年度 PCI-DSS 评估,特别是对于 零售酒店/餐饮 环境。

如需更广泛的网络设计原则,请参阅我们的指南: 商业 WiFi 设置:2026 年指南了解 RSSI 和信号强度以实现最佳信道规划

故障排除与风险缓解

故障模式 根本原因 缓解策略
身份验证超时 防火墙阻止出站 UDP 1812/1813 或 TCP 2083。 验证边界防火墙规则是否允许出站流量流向云 RADIUS 提供商的特定 IP 范围。
证书信任错误 客户端设备的信任库中缺少根 CA。 在第 3 阶段(并行运行)之前,通过 MDM/GPO 部署根 CA。
VLAN 分配失败 云策略中厂商特定属性 (VSA) 映射不正确。 在第 1 阶段,将 NPS 中确切的 VSA 字符串格式复制到云 RADIUS 策略引擎中。
WAN 中断影响 失去互联网连接导致无法访问云 RADIUS。 部署冗余 WAN 链路,或部署对已知设备缓存凭据的本地 RADIUS 代理。

ROI 与业务影响

迁移到 RADIUS-as-a-Service 可带来可衡量的业务成果:

  • 降低成本:消除了硬件采购、Windows Server 许可以及用于补丁和维护的工程时间。典型的运营成本 (OpEx) 可降低 60-80%。
  • 可靠性 SLA:与单站点 NPS 部署典型的 97-98% 可用性相比,云提供商提供有财务保障的 99.99% 可用性 SLA。
  • 灵活性:无需配置本地身份验证硬件即可立即让新站点上线,从而缩短 交通 枢纽和 医疗保健 机构的部署时间表。

听听我们的高级顾问团队在这一 10 分钟简报中讨论战略影响:

关键定义

RADIUS (远程用户拨号认证服务)

一种网络协议,为连接和使用网络服务的用户提供集中的认证、授权和计费 (AAA) 管理。

企业 WiFi 网络在授予网络访问权限之前用于验证用户凭据的核心协议。

NPS (网络策略服务器)

Microsoft 对 RADIUS 服务器和代理的实现,作为 Windows Server 中的一个角色捆绑在一起。

组织正在积极迁移的陈旧本地基础设施,以减少维护开销。

NAS (网络接入服务器)

作为网络网关并向 RADIUS 服务器传递身份验证请求的设备。

在无线环境中,NAS 通常是指 WiFi 接入点或无线局域网控制器。

RadSec (RADIUS over TLS)

RFC 6614 中定义的一种协议,通过使用 TLS 加密的 TCP 连接传输 RADIUS 数据包。

云 RADIUS 部署的关键,确保凭据数据在通过公共互联网传输时得到加密。

EAP (可扩展身份验证协议)

无线网络和点对点连接中经常使用的身份验证框架。

决定客户端和服务器如何安全地交换凭据(例如,通过 EAP-TLS 交换证书,或通过 PEAP 交换密码)。

VSA (厂商特定属性)

硬件厂商在 RADIUS 协议内定义的自定义属性,用以支持专有功能。

迁移过程中的关键;VSA 通常用于动态地将已验证的用户分配到特定的网络 VLAN。

LDAPS (基于 SSL 的轻量级目录访问协议)

一种用于查询和修改目录服务(如 Active Directory)的安全协议。

供云端 RADIUS 服务使用,以便在不将用户目录迁移到云端的情况下,安全地查询本地身份库。

802.1X

一种用于基于端口的网络准入控制(PNAC)的 IEEE 标准。

使用 RADIUS 的底层标准,以确保只有通过身份验证的设备才能将流量传输到企业 LAN 或 WLAN。

应用实例

一个拥有 200 家酒店的集团目前在每个站点运行本地 NPS 服务器,用于员工 802.1X 身份验证。他们正在向 Microsoft Entra ID 迁移,并希望退役本地服务器。他们应该如何处理这一迁移?

  1. 部署一个通过 SAML/SCIM 与 Microsoft Entra ID 进行原生集成的云 RADIUS 服务。
  2. 配置云 RADIUS 策略,将 Microsoft Entra ID 组(例如“前台”、“管理层”)映射到特定的 VLAN VSA。
  3. 在试点酒店,配置无线接入点以使用 RadSec 连接到云 RADIUS 端点。
  4. 通过 Microsoft Intune 将云 RADIUS 服务器的根证书(Root CA)推送到所有员工设备。
  5. 在试点站点运行并行身份验证,然后分阶段在其余 199 家酒店中进行推广。
考官评语: 这种方法从企业中移除了 200 台物理/虚拟服务器,大大减少了受攻击面和维护开销。直接与 Microsoft Entra ID 集成消除了将复杂的站点到站点 VPN 回连到中央 Active Directory 的需要。

一个可容纳 50,000 人的体育场在重大活动期间,其企业 SSID 上会出现身份验证失败,原因是其本地 NPS 服务器无法处理数千台设备同时漫游的吞吐量。

  1. 审计现有的 NPS 策略和 EAP 方法。
  2. 部署一个能够自动扩展以处理高每秒身份验证数 (APS) 的云 RADIUS 服务。
  3. 建立从云 RADIUS 服务到体育场本地 Active Directory 的 LDAPS 连接。
  4. 更新体育场的高密度无线局域网控制器,使其指向云 RADIUS 端点作为主身份验证服务器。
考官评语: 通过将 RADIUS 处理卸载到云集群,该体育场利用了在活动入场期间动态扩展的弹性计算资源,从而解决了瓶颈,而无需场馆过度配置昂贵的本地硬件。

练习题

Q1. 您的组织正在迁移到 Cloud RADIUS。安全团队要求任何身份验证流量都不能通过互联网以明文形式发送,也不能使用已弃用的哈希算法(如 MD5)。您必须在无线 LAN 控制器上配置什么协议?

提示:寻找在 TLS 隧道中封装 RADIUS 的协议。

查看标准答案

您必须配置 RadSec(RADIUS over TLS)。RadSec 在 NAS 和云端 RADIUS 服务器之间的 TCP 端口 2083 上建立 TLS 隧道,提供传输层加密和双向身份验证,从而满足安全团队的要求。

Q2. 在迁移的第 3 阶段(并行运行)期间,您注意到用户能够成功向云端 RADIUS 服务器进行身份验证,但未被分配到正确的网络分段中。最可能存在的配置差距是什么?

提示:RADIUS 服务器如何告诉接入点使用哪个网络分段?

查看标准答案

用于动态 VLAN 分配的供应商特定属性(VSA)未在云端 RADIUS 策略中正确配置。您必须确保在云环境中复制旧版 NPS 服务器中使用的确切 VSA 字符串,以便 NAS 知道为用户分配哪个 VLAN。

Q3. 客户端设备在针对新的云端 RADIUS 服务进行 EAP-TLS 身份验证时反复失败,但针对旧版 NPS 服务器时工作正常。设备日志显示“不受信任的服务器”错误。您该如何解决此问题?

提示:EAP-TLS 要求客户端信任服务器的身份。

查看标准答案

客户端设备的受信任根证书存储区中没有签发云端 RADIUS 服务器证书的根证书颁发机构(CA)。您必须使用移动设备管理(MDM)解决方案或组策略将根 CA 部署到客户端设备。