RADIUS Server 高可用性:Active-Active 與 Active-Passive 的比較
針對評估 RADIUS 高可用性架構的 IT 經理與網路架構師所提供的權威技術參考指南。本指南對比了 Active-Active 與 Active-Passive 部署,詳細說明了資料庫同步複製的需求,並解釋了 Cloud RADIUS 如何為企業級場域降低容錯移轉延遲。
收聽此指南
查看播客逐字稿

執行摘要
對於企業網路而言,驗證是二分法的:要麼完美運作,要麼業務營運完全中斷。RADIUS (Remote Authentication Dial-In User Service) 是現代場域中部署 IEEE 802.1X、WPA3 企業級和 Guest WiFi 的關鍵守門者。與在負載下會優雅降級的應用程式服務不同,RADIUS 故障會立即阻斷使用者、POS 終端和營運設備的網路存取。
本技術參考指南評估了部署高可用性 RADIUS 基礎架構的架構模型。具體而言,它對比了傳統的主備 (Active-Passive) 配置與現代的雙活 (Active-Active) 叢集。對於管理 Retail 、 Hospitality 和體育場等高密度環境的 IT 經理、網路架構師和場域營運總監而言,理解這些容錯移轉策略、負載平衡機制和資料庫同步需求至關重要。
此外,本指南還探討了 Cloud RADIUS 平台如何抽象化高可用性的複雜性,提供自動容錯移轉和彈性擴充能力,而無需維護備援地端基礎架構的營運負擔。透過應用這些與廠商無關的最佳實踐,工程團隊可以設計出消除單點故障並滿足嚴格可用性服務層級協定 (SLA) 的驗證架構。
技術深度解析:理解 RADIUS 架構
根據 RFC 2865 和 RFC 2866 的定義,RADIUS 作為基於 UDP 的用戶端-伺服器協定運作,通常使用連接埠 1812 進行驗證,使用連接埠 1813 進行計費。UDP 驗證請求的無狀態特性是高可用性設計的結構性優勢。因為每個 Access-Request 封包都包含所有必要的憑證和參數,所以叢集中的任何 RADIUS 伺服器都可以獨立處理任何請求,而不需要在驗證階段本身進行複雜的狀態同步。
主備 (Active-Passive) 架構
在主備(或主從)部署中,單一 RADIUS 伺服器處理所有傳入的驗證和計費流量。次要伺服器保持線上但處於閒置狀態,接收資料庫同步更新,但不主動回應網路存取設備 (NAD),例如無線基地台、交換器或 VPN 閘道器。
當主伺服器發生故障時,NAD 會偵測到逾時,並將後續的請求重導向至備用伺服器。容錯移轉的偵測時間完全取決於 NAD 的設定計時器。一般的 NAD 會發送 RADIUS 請求並等待預設的封包逾時(通常為兩秒)。如果未收到任何回應,它會重試。在每個伺服器嘗試三次的標準設定下,NAD 在宣告主伺服器失效並容錯移轉到備用伺服器之前,最多可能需要等待六秒。在設定了三台伺服器的環境中,此容錯移轉時間視窗可能會延長至十八秒。對於繁忙的 款待業 場所或處理交易的 零售 環境而言,這種延遲代表著服務受到明顯的中斷。
雙活(Active-Active)架構
相反地,雙活架構會同時將驗證負載分散到多個運作中的 RADIUS 伺服器上。流量會透過 NAD 上的輪詢(Round-Robin)設定或透過專用的負載平衡器路由到該叢集。

此模式消除了主備(Active-Passive)設定中固有的容錯移轉偵測延遲。如果某個節點發生故障,負載平衡器(或使用輪詢的 NAD)只需停止將流量路由到無回應的伺服器,根據健康檢查間隔,這通常在一到兩秒內完成。其餘的活動節點會立即吸收該流量。此外,雙活叢集支援水平擴充;為高密度活動增加容量只需向叢集佈署額外的節點即可。
資料庫同步複製的挑戰
雖然 RADIUS 驗證是無狀態的,但 RADIUS 計費(Accounting)本質上是有狀態的。它會追蹤工作階段的啟動(Start)、持續使用情況(Interim-Update)以及終止(Stop)。對於使用 WiFi Analytics 或計費系統的場所,此計費資料在所有節點上必須保持一致。
使用複製資料庫(例如與 FreeRADIUS 整合的 MySQL 或 MariaDB)作為 RADIUS 叢集的後盾,對於實現強健的高可用性是強制性的。對於雙活佈署,需要同步多主機複製(例如 Galera Cluster 或 MySQL NDB Cluster)。同步複製可確保計費記錄同時寫入所有節點,從而防止在節點故障時遺失資料。主備設定中常用的傳統非同步複製會引入複製延遲。如果主節點在備用節點收到更新之前發生故障,活動工作階段資料將永久遺失,這可能會違反 PCI DSS 等合規性框架。
實作指南:雲端 vs 地端
架構決策的考量不僅止於如何進行伺服器叢集,還涉及這些伺服器的部署位置。對於多據點營運商而言,將驗證流量回傳至集中式的地端資料中心會導入 WAN 延遲,並在 WAN 連結處產生單一故障點。
Cloud RADIUS 平台
Cloud RADIUS 服務透過在全球多個可用區域託管驗證基礎架構,解決了地理分佈的挑戰。當使用者在分支機構連線時,請求會被路由至最近的雲端邊緣節點,從而將延遲降至最低。

雲端平台本質上採用雙活(Active-Active)架構。可用區域之間的容錯移轉由供應商的內部負載平衡自動處理,完全為客戶的工程團隊抽離了複雜性。此模式通常提供 99.99% 的執行時間 SLA,並免除了手動憑證管理、作業系統修補和資料庫同步調整的需求。對於在分佈式校園中部署 Wayfinding 或 Sensors 的組織,雲端託管驗證可確保一致的原則執行,而無需依賴本地化硬體。
地端部署考量因素
在高度受監管行業(例如特定的 醫療保健 或政府環境)中營運的組織,由於嚴格的數據主權規範,可能需要進行地端部署。在這些情境中,部署具有 Galera 同步複製功能的雙活 FreeRADIUS 叢集可提供最高水準的彈性。
然而,工程團隊必須考慮到營運開銷。在多個節點之間管理 TLS 憑證、確保設定一致性以及主動監控資料庫複製健康狀況,都需要專門的系統管理資源。硬體負載平衡器必須經過專門設定,以支援具有適當 RADIUS 健康檢查的 UDP 流量,因為許多標準負載平衡器僅針對 TCP HTTP/HTTPS 流量進行了最佳化。
RADIUS 高可用性最佳實踐
- 分佈而非複製:對於同時上線使用者超過 500 人的部署,應優先選擇雙活(Active-Active)架構而非主備(Active-Passive)設定,以最大化吞吐量並最小化容錯移轉延遲。
- 實施同步複製:利用同步多主機資料庫複製(例如 Galera Cluster),而非非同步的主從(Primary-Replica)模式,以保護具狀態的計費數據。
- 標準化憑證信任:在雙活叢集中,確保所有節點呈現相同的伺服器憑證,或來自完全相同憑證授權單位 (CA) 鏈的憑證。不一致將導致 EAP-TLS 和 PEAP 握手在節點輪替期間失敗。
- 調整 NAD 計時器:優化網路存取設備(Network Access Devices)上的 RADIUS 重試與逾時計時器。設定 2 秒逾時並重試 2 次,可在快速容錯移轉偵測與防止輕微網路擁塞期間發生過早容錯移轉之間取得平衡。
- 測試故障情境:將備用節點視為生產系統。定期模擬節點故障、資料庫非同步以及 WAN 鏈路中斷,以驗證自動容錯移轉機制是否按設計運作。
疑難排解與風險緩釋
RADIUS 高可用性中最常見的故障模式是設定偏差(configuration drift)。在主從(Active-Passive)架構中,管理員經常更新主要節點上的原則或更新憑證,卻忽略了備用節點。當發生容錯移轉事件時,備用節點會因憑證過期或原則過時而拒絕合法的流量。
為了降低此風險,請導入設定管理工具(例如 Ansible 或 Terraform),以在所有節點上對稱地部署變更。針對憑證管理,請利用自動更新協定(例如 ACME),並設定為同時在整個叢集內分發更新後的憑證。
另一個重大風險是負載平衡器設定錯誤。如果負載平衡器未執行應用程式層健康檢查(特別是驗證 UDP 連接埠 1812 的回應能力),它可能會繼續將流量路由到作業系統正在運行但 RADIUS 精靈(daemon)已崩潰的節點。請確保健康檢查明確驗證了 RADIUS 服務的可用性。
投資報酬率與業務影響
健全的 RADIUS 高可用性投資報酬率,主要透過風險緩釋與營運效率來衡量。驗證中斷會立即導致員工生產力損失,並對面向公眾的場所造成嚴重的商譽損害。
藉由從手動、單一伺服器部署轉型為自動化、雙活(Active-Active)架構(特別是透過 Cloud RADIUS),企業可以收回先前投入於例行維護的大量工程工時。這種營運效率使網路團隊能夠專注於策略性倡議,例如部署 The Core SD WAN Benefits for Modern Businesses 或優化高密度覆蓋,而不是忙於撲滅驗證失敗的火頭。歸根結底,可靠的驗證是所有後續網路服務賴以生存的基礎架構。
關鍵定義
雙活架構 (Active-Active Architecture)
一種高可用性設計,其中多個 RADIUS 伺服器同時處理驗證請求,分擔負載並提供即時容錯移轉,而不會產生偵測延遲。
對於高密度場所(體育場、大型零售店)至關重要,因為單一伺服器無法處理尖峰時段的驗證突增。
主備架構 (Active-Passive Architecture)
一種備援模型,其中主要伺服器處理所有流量,而次要伺服器保持閒置待命狀態,直到主要伺服器發生故障。
適用於規模較小、對成本敏感的部署,但在網路存取裝置偵測到故障時,會引入 6 到 18 秒的容錯移轉延遲。
同步複製 (Synchronous Replication)
一種資料庫複製方法,在交易被視為完成之前,資料會同時寫入叢集中的所有節點。
對於雙活 (Active-Active) RADIUS 計費資料庫(如 Galera Cluster)是強制性的,以防止資料遺失並確保合規性。
非同步複製 (Asynchronous Replication)
一種資料庫複製方法,主要節點先記錄資料,隨後再將其複製到次要節點,這會引入輕微的延遲(滯後)。
常用於主備 (Active-Passive) 設定中,但如果主要節點突然發生故障,則存在遺失近期計費記錄的風險。
網路存取裝置 (Network Access Device, NAD)
代表使用者向 RADIUS 伺服器請求驗證的硬體元件(例如 WiFi 存取點、交換器或 VPN 閘道)。
NAD 的內部重試和逾時定時器決定了主備 (Active-Passive) 容錯移轉發生的速度。
無狀態協定 (Stateless Protocol)
一種通訊協定,將每個請求視為獨立的交易,與之前的任何請求無關。
透過 UDP 進行的 RADIUS 驗證是無狀態的,允許負載平衡器將任何請求無縫路由到任何作用中的伺服器。
組態漂移 (Configuration Drift)
隨著時間推移,次要或備份伺服器在原則、更新或憑證方面與主要伺服器失去同步的現象。
當次要節點被迫接管時,這是主備 (Active-Passive) RADIUS 部署失敗的首要原因。
Cloud RADIUS
託管於全球分佈式雲端基礎架構上的受管驗證服務,提供內建的雙活 (Active-Active) 備援與自動擴充功能。
取代了 IT 團隊手動建置、修補和監控備援地端 RADIUS 伺服器的需求。
範例
一家歐洲飯店集團在六個國家管理 45 家物業。他們目前在每家物業運行獨立的 FreeRADIUS 虛擬機器。最近某個據點因 TLS 憑證過期,導致在一場大型會議期間 Guest WiFi 完全中斷。他們應該如何重新設計其驗證架構,以防止局部性中斷並減少維護開銷?
該飯店集團應從本地化的單節點 FreeRADIUS 執行個體,遷移至採用 Active-Active 架構的集中式 Cloud RADIUS 平台。透過利用具有地理分佈邊緣節點的雲端服務供應商,來自每家物業的驗證請求將被路由至最近的區域節點,從而將延遲降至最低。集中式原則管理允許 IT 團隊僅需定義一次驗證規則,即可套用至全球。雲端服務供應商會自動處理 TLS 憑證輪替、作業系統修補和資料庫同步複製。
一座國家體育場正準備舉辦一場有 60,000 名觀眾參加的活動。他們目前的 RADIUS 設定為 Active-Passive 配置。在壓力測試期間,當閘門開放時,主伺服器因每分鐘處理 8,000 次驗證請求而達到飽和,導致嚴重的連線延遲,而備用伺服器則完全處於閒置狀態。他們該如何優化此部署?
網路工程團隊必須將部署從 Active-Passive 轉換為 Active-Active。首先,他們應該重新配置體育場的網路存取設備 (NAD),以在兩台 RADIUS 伺服器之間利用輪詢 (Round-Robin) 負載平衡,立即使其驗證吞吐量翻倍。其次,他們應該佈署第三個 RADIUS 節點,以提供因應尖峰突增所需的緩衝空間。最後,為了確保所有三個作用中節點的帳務資料保持一致,他們必須實作同步多主機資料庫複製解決方案,例如 Galera Cluster。
練習題
Q1. 您的企業零售客戶需要為其銷售點(POS)終端機提供高可用性的 RADIUS 解決方案。他們有嚴格的 PCI DSS 合規性要求,規定在伺服器容錯移轉期間絕對不能遺失任何計費工作階段數據。您必須為 RADIUS 後端實作哪種資料庫複製策略?
提示:請考量同時寫入數據與事後複製數據之間的差異。
查看標準答案
您必須實作同步複製(例如 Galera Cluster 或 MySQL NDB Cluster)。同步複製可確保在確認交易之前,計費記錄已同時提交到所有節點。如果您使用非同步複製,節點故障可能會導致尚未複製到次要資料庫的近期交易遺失,從而違反嚴格的合規性要求。
Q2. 某大學校園網路使用主從式(Active-Passive)RADIUS 架構。學生抱怨當主要伺服器進行維護時,他們的筆記型電腦需要將近 20 秒才能連線到 WiFi。無線基地台(AP)設定為 3 秒的 RADIUS 逾時和 5 次重試。在不改變伺服器架構的情況下,您該如何縮短容錯移轉的延遲?
提示:根據 NAD 計時器在嘗試次要伺服器之前的設定,計算最大等待時間。
查看標準答案
您應該調整網路存取裝置(無線基地台)上的計時器。目前,AP 會等待 3 秒並重試 5 次,導致在容錯移轉到備用伺服器之前產生 18 秒的延遲(3 秒 × 共 6 次嘗試)。藉由將設定縮減為 2 秒逾時和 2 次重試,容錯移轉偵測時間將降至 6 秒,從而顯著改善維護期間的使用者體驗。
Q3. 您正在將多據點企業網路從主從式(Active-Passive)地端 RADIUS 伺服器,遷移到雙活(Active-Active)Cloud RADIUS 平台。在試行階段,裝置成功向 Cloud Node A 進行驗證,但當負載平衡器將它們路由到 Cloud Node B 時,EAP-TLS 握手失敗。最可能的設定錯誤是什麼?
提示:請考量用戶端裝置在與新伺服器建立安全 EAP 通道時會驗證什麼。
查看標準答案
最可能的問題是憑證信任不相符。在雙活(Active-Active)叢集中,所有 RADIUS 節點必須呈現完全相同的伺服器憑證(或由完全相同的受信任 CA 鏈發行的憑證)。如果 Cloud Node B 呈現了用戶端裝置不信任的其他憑證,EAP-TLS 握手將被用戶端拒絕,導致即使伺服器運作正常,驗證仍會失敗。
繼續閱讀本系列
各大廠商的 Per-Device PSK 比較:iPSK、DPSK、MPSK 與 PPSK(以及 WPA3 支援)
針對 Cisco Meraki、HPE Aruba、Ruckus、Juniper Mist、Extreme、Fortinet 和 Ubiquiti UniFi 的 per-device PSK 實作進行全面比較。了解 WPA3-SAE 如何影響 per-device 金鑰策略,以及何時該部署過渡模式或轉移至 802.1X。
Captive Portal 驗證方式比較
本權威技術參考指南評估了五種核心 Captive Portal 驗證方式在架構、營運及合規性方面的權衡。它為網路架構師、IT 總監和行銷經理提供了所需的量化數據與決策框架,以在企業場域中平衡訪客登入摩擦與數據收集需求。
什麼是 MAC 位址驗證?何時該使用以及何時該避免使用
本權威技術參考指南涵蓋企業 WiFi 環境中的 MAC 位址驗證 — 說明基於 RADIUS 的 MAC 驗證在 Layer 2 的運作方式、其固有的安全性漏洞(包括 MAC 欺騙以及作業系統層級 MAC 隨機化的影響),以及其作為管理 IoT 和無螢幕(headless)裝置有效工具的具體營運情境。本指南為餐飲旅宿、零售、醫療保健和公共場所的 IT 經理與網路架構師提供具體可行的部署指引,並包含實際案例、決策框架,以及與 Purple 的顧客 WiFi 和分析平台的整合情境。