跳至主要內容

RADIUS Server 高可用性:Active-Active 與 Active-Passive 的比較

針對評估 RADIUS 高可用性架構的 IT 經理與網路架構師所提供的權威技術參考指南。本指南對比了 Active-Active 與 Active-Passive 部署,詳細說明了資料庫同步複製的需求,並解釋了 Cloud RADIUS 如何為企業級場域降低容錯移轉延遲。

📖 6 分鐘閱讀📝 1,317 字數🔧 2 範例3 練習題📚 8 關鍵定義

收聽此指南

查看播客逐字稿
# RADIUS Server High Availability: Active-Active vs Active-Passive ## Purple Technical Briefing — Podcast Script (~10 minutes) --- **PART 1 — INTRODUCTION & CONTEXT (approx. 1 minute)** 歡迎收聽 Purple Technical Briefing。我是您的主持人,今天我們要探討對於任何運行企業級 WiFi 的組織來說,最重大的基礎架構決策之一:RADIUS 伺服器高可用性(High Availability)。 如果您是負責飯店集團、零售連鎖店、體育場或公共部門設施驗證基礎架構的網路架構師或 IT 總監,本次簡報將為您提供做出正確決策所需的框架和具體技術細節,並避免在最糟糕的時刻導致驗證中斷的錯誤。 讓我來為您說明背景。RADIUS(遠端使用者撥入驗證服務)是您網路的守門人。每當員工透過 802.1X 連線,或者訪客透過您的 Captive Portal 進行驗證時,RADIUS 就是檢查憑證並授權存取的引擎。它是 IEEE 802.1X 和 WPA3 企業級部署的骨幹。與大多數在故障時會優雅降級的 IT 服務不同,RADIUS 是二分法的:它要麼正常運作,要麼就沒有人能連上網路。這種不對稱性正是高可用性如此關鍵的原因。 --- **PART 2 — TECHNICAL DEEP-DIVE (approx. 5 minutes)** 讓我們從基本原理開始。RADIUS 在 UDP 上運行 — 通常驗證使用連接埠 1812,計費使用連接埠 1813。UDP 的無狀態特性實際上是 HA 設計的一個優勢:因為每個驗證請求都是獨立的,叢集中的任何伺服器都可以處理任何請求,而無需知道之前發生了什麼。這正是讓主動-主動(Active-Active)部署如此優雅的架構特性。 現在,您需要了解兩種主要的高可用性模型。 **主動-被動(Active-Passive)**是傳統的方法。您有一個主 RADIUS 伺服器處理所有驗證流量,以及一個處於待命狀態的備用伺服器,接收複製的資料但不處理請求。當主伺服器發生故障時,網路存取裝置(NAS)— 您的存取點(AP)、交換器、VPN 閘道器 — 會偵測到故障並將流量重導向到備用伺服器。 該容錯移轉(Failover)需要多長時間?這就是細節決定成敗的地方。NAS 發送 RADIUS 請求並等待。預設的封包逾時通常是兩秒。之後,它會重試 — 通常每台伺服器嘗試三次。在配置了兩台伺服器的情況下,在經過良好調校的部署中,最大容錯移轉偵測時間大約在六到十二秒之間。在配置了三台伺服器且使用預設計時器的最壞情況下,這可能會延長到十八秒。對於試圖在辦理入住時連線的飯店訪客,或試圖處理交易的零售店員來說,這是一段令人痛苦的等待窗口。 **Active-Active**(雙活動)是更為先進的方法,且對大多數企業級部署而言是正確的選擇。兩台(或所有)RADIUS 伺服器會同時處理驗證請求。流量會透過輪詢(round-robin)循環或專用負載平衡器分發到整個叢集。當其中一個節點故障時,其餘節點會立即吸收其流量。這不會有容錯移轉的偵測延遲,因為這並非傳統意義上的容錯移轉:負載平衡器只會停止向異常節點發送請求,根據健康檢查間隔,這通常在一到兩秒內完成。 其效能優勢是加乘的。在大型場館中(例如擁有 60,000 個座位的體育場或舉辦大型展覽的會議中心),當大門開啟或會議休息時,您會看到數千個同時進行的驗證請求。單一 RADIUS 伺服器(即使是配置良好的伺服器)也可能成為瓶頸。Active-Active 叢集可進行水平擴充:增加另一個節點,即可按比例增加容量。 現在,讓我們來談談資料庫層,因為這是許多部署遇到問題的地方。RADIUS 驗證本身在很大程度上是無狀態的——伺服器根據目錄檢查憑證並傳回 Accept(接受)或 Reject(拒絕)。但 RADIUS 計費(accounting)是有狀態的:它會追蹤工作階段開始、過渡更新和工作階段停止事件。如果您將計費功能用於帳務、合規性記錄或工作階段管理,則需要該資料在所有節點上保持一致。 標準方法是使用複製資料庫來支援您的 RADIUS 叢集。FreeRADIUS 是全球部署最廣泛的開源 RADIUS 伺服器,它與 MySQL 和 MariaDB 整合。對於 Active-Active 部署,您有兩個主要選擇:MySQL NDB Cluster(提供同步多主機複製,具備亞秒級容錯移轉)或 Galera Cluster(提供類似的同步複製,且維運管理稍微簡單一些)。兩者都能消除節點故障時資料遺失的風險。非同步複製(標準 MySQL 主從複製)成本較低,但會引入複製延遲,如果主節點在變更複製之前故障,可能會導致計費記錄遺失。 讓我來探討地理分佈的問題,因為這對於多據點營運商來說越來越重要。如果您經營一家擁有 200 家分店的零售連鎖店,或是一家在多個國家擁有物業的飯店集團,問題不僅僅是「我該如何讓我的 RADIUS 伺服器具備備援能力?」——而是「相對於我的存取點,我的 RADIUS 伺服器應該部署在哪裡?」 將驗證流量從遠端站點回傳到中央資料中心會引入 WAN 延遲,並在 WAN 鏈路上產生單一故障點。如果該鏈路中斷,無論您的中央 RADIUS 叢集有多麼冗餘,遠端站點都無法驗證任何人。解決方案是在每個站點部署本地 RADIUS 執行個體(這會產生巨大的營運開銷),或者使用具有地理分佈式邊緣節點的雲端 RADIUS 服務。 雲端 RADIUS 平台在架構層面解決了高可用性(HA)問題。供應商在多個可用區域和地區營運 RADIUS,無需您建立和管理冗餘基礎設施。節點之間的容錯移轉會自動發生,通常在不到一秒的時間內完成,因為它是由平台的內部負載平衡處理,而不是由 NAS 重試計時器處理。企業級雲端 RADIUS 供應商的 SLA 承諾通常為 99.99% 的可用性——這相當於每年不到 53 分鐘的停機時間。 這裡還有一個重要的合規維度。PCI DSS 要求對持卡人資料環境進行強式驗證控制。GDPR 將驗證記錄視為個人資料,需要適當的處理和資料落地控制。雲端 RADIUS 供應商通常持有 SOC 2 Type II 認證,並提供具有區域資料落地選項的 GDPR 資料處理協議。地端部署則讓您能完全控制資料位置,這在 NHS 資料治理框架下的醫療保健環境,或具有資料主權要求的政府設施中至關重要。 --- **第 3 部分 — 實作建議與常見陷阱(約 2 分鐘)** 讓我帶您了解兩個在實踐中說明這些原則的真實案例。 第一:一家在六個國家擁有 45 家物業的歐洲酒店集團。他們由三名工程師組成的 IT 團隊在每個物業的虛擬機器上執行 FreeRADIUS——共有 45 個獨立的執行個體需要修補、監控和維護。當某個物業的 TLS 憑證過期時,導致了一場大型會議期間的訪客 WiFi 完全中斷。修復工作需要工程師遠端登入並手動更新憑證——在訪客無法連線的情況下,這個過程花費了 40 分鐘。 在遷移到具有集中式策略管理的雲端 RADIUS 服務後,該團隊完全消除了每個站點的維護工作。憑證輪替變成了自動化。這三名工程師收回了先前花在 RADIUS 營運上大約 40% 的時間。更重要的是,該平台跨多個雲端區域的主動-主動(active-active)架構意味著,單一節點故障(以前會導致站點中斷)變得無足輕重。 第二種情境:容納 60,000 名球迷舉辦大型賽事的國家體育場。網路團隊部署了主動-被動(active-passive)的 RADIUS 配置,包含一台主伺服器和一台熱備份伺服器。在活動前的壓力測試中,他們發現當閘門開放、驗證需求激增時,主伺服器達到了飽和狀態——每分鐘處理 8,000 次驗證請求。當主伺服器苦苦支撐時,被動的次要伺服器卻處於閒置狀態。 解決方案是重新配置 NAS 設備,在兩台伺服器之間使用輪詢(round-robin)負載平衡,有效地將部署轉換為主動-主動(active-active)模式。驗證吞吐量立即翻倍。他們還增加了第三台伺服器以提供因應尖峰負載的緩衝空間,並為計費資料庫配置了 Galera Cluster 複製。最終的部署結果是,即使失去任何單一節點,也不會對使用者造成任何可察覺的影響。 現在來談談陷阱。最常見的錯誤是將次要 RADIUS 伺服器視為「設定後即忘」的備份。配置會產生偏差。當主伺服器運行正常時,次要伺服器上的憑證可能已經過期。當主伺服器最終故障且次要伺服器接管時,它也會因為完全不同的原因而失敗。解決方法很簡單:定期(至少每季)測試您的容錯移轉,並將這兩個節點都視為生產系統。 第二個陷阱是忽略了資料庫複製的延遲。如果您使用的是非同步複製,且您的主資料庫節點發生故障,您可能會遺失在故障發生時處於作用狀態的會話計費記錄。對於 PCI DSS 合規性而言,這是一個嚴重的漏洞。對於任何將計費資料完整性視為合規要求的部署,請使用同步複製(Galera 或 NDB)。 --- **第四部分 — 快速問答(約 1 分鐘)** 讓我來解答我最常從網路架構師那裡聽到的問題。 「什麼是最小可行的高可用性(HA)配置?」兩台具有主動-被動容錯移轉、共享金鑰同步和複製資料庫後端的 RADIUS 伺服器。這是您的底線。對於 500 個以上同時上線的使用者,請改用主動-主動模式。 「我可以使用硬體負載平衡器來處理 RADIUS 嗎?」可以,但 RADIUS 使用 UDP,而許多負載平衡器是針對 TCP 進行優化的。請確保您的負載平衡器支援具有健康檢查的 UDP 負載平衡。HAProxy Enterprise 擁有專用的 RADIUS UDP 模組。F5 BIG-IP 則原生支援此功能。 「在 HA 叢集中,我該如何處理 EAP 憑證信任?」所有節點必須呈現相同的伺服器憑證,或者至少呈現來自相同 CA 鏈的憑證。用戶端在 EAP-TLS 和 PEAP 握手期間會驗證伺服器憑證——如果節點呈現不同的憑證,您將在容錯移轉後看到驗證失敗。 「雲端 RADIUS 可以與地端的 Active Directory 搭配使用嗎?」可以,透過輕量級連接器或 LDAP 代理程式來查詢您的本地 AD,而無需將其直接暴露給網際網路。這是混合式環境的標準整合模式。 --- **第 5 部分 — 總結與後續步驟(約 1 分鐘)** 讓我以您需要做出的關鍵決策來做結尾。 如果您的單一場地同時在線用戶少於 500 人,且有穩定的團隊來管理基礎設施,那麼採用經過嚴格測試的容錯移轉程序的「主動-被動」(active-passive)架構是一個合理的選擇。保持簡單、定期測試,並使用同步資料庫複製。 如果您營運的是多場地物業、高密度場館,或者您團隊的頻寬受限,那麼「主動-主動」(active-active)就是正確的架構 — 而雲端 RADIUS 是無需自行建置基礎設施即可實現此目標的最快路徑。 無論您選擇哪種模式,原則都是相同的:分散而非複製、自動化容錯移轉決策,並在故障場景考驗您之前先對其進行測試。 欲了解更多關於 Purple 的平台如何大規模處理 RADIUS 驗證(包括與 802.1X、WPA3 企業版和訪客 WiFi 門戶的整合)的資訊,請造訪 purple.ai。我們下次見。 --- *腳本結束。以每分鐘 150 字的速讀時間計算:約 10 分鐘。*

header_image.png

執行摘要

對於企業網路而言,驗證是二分法的:要麼完美運作,要麼業務營運完全中斷。RADIUS (Remote Authentication Dial-In User Service) 是現代場域中部署 IEEE 802.1X、WPA3 企業級和 Guest WiFi 的關鍵守門者。與在負載下會優雅降級的應用程式服務不同,RADIUS 故障會立即阻斷使用者、POS 終端和營運設備的網路存取。

本技術參考指南評估了部署高可用性 RADIUS 基礎架構的架構模型。具體而言,它對比了傳統的主備 (Active-Passive) 配置與現代的雙活 (Active-Active) 叢集。對於管理 RetailHospitality 和體育場等高密度環境的 IT 經理、網路架構師和場域營運總監而言,理解這些容錯移轉策略、負載平衡機制和資料庫同步需求至關重要。

此外,本指南還探討了 Cloud RADIUS 平台如何抽象化高可用性的複雜性,提供自動容錯移轉和彈性擴充能力,而無需維護備援地端基礎架構的營運負擔。透過應用這些與廠商無關的最佳實踐,工程團隊可以設計出消除單點故障並滿足嚴格可用性服務層級協定 (SLA) 的驗證架構。

技術深度解析:理解 RADIUS 架構

根據 RFC 2865 和 RFC 2866 的定義,RADIUS 作為基於 UDP 的用戶端-伺服器協定運作,通常使用連接埠 1812 進行驗證,使用連接埠 1813 進行計費。UDP 驗證請求的無狀態特性是高可用性設計的結構性優勢。因為每個 Access-Request 封包都包含所有必要的憑證和參數,所以叢集中的任何 RADIUS 伺服器都可以獨立處理任何請求,而不需要在驗證階段本身進行複雜的狀態同步。

主備 (Active-Passive) 架構

在主備(或主從)部署中,單一 RADIUS 伺服器處理所有傳入的驗證和計費流量。次要伺服器保持線上但處於閒置狀態,接收資料庫同步更新,但不主動回應網路存取設備 (NAD),例如無線基地台、交換器或 VPN 閘道器。

當主伺服器發生故障時,NAD 會偵測到逾時,並將後續的請求重導向至備用伺服器。容錯移轉的偵測時間完全取決於 NAD 的設定計時器。一般的 NAD 會發送 RADIUS 請求並等待預設的封包逾時(通常為兩秒)。如果未收到任何回應,它會重試。在每個伺服器嘗試三次的標準設定下,NAD 在宣告主伺服器失效並容錯移轉到備用伺服器之前,最多可能需要等待六秒。在設定了三台伺服器的環境中,此容錯移轉時間視窗可能會延長至十八秒。對於繁忙的 款待業 場所或處理交易的 零售 環境而言,這種延遲代表著服務受到明顯的中斷。

雙活(Active-Active)架構

相反地,雙活架構會同時將驗證負載分散到多個運作中的 RADIUS 伺服器上。流量會透過 NAD 上的輪詢(Round-Robin)設定或透過專用的負載平衡器路由到該叢集。

comparison_chart.png

此模式消除了主備(Active-Passive)設定中固有的容錯移轉偵測延遲。如果某個節點發生故障,負載平衡器(或使用輪詢的 NAD)只需停止將流量路由到無回應的伺服器,根據健康檢查間隔,這通常在一到兩秒內完成。其餘的活動節點會立即吸收該流量。此外,雙活叢集支援水平擴充;為高密度活動增加容量只需向叢集佈署額外的節點即可。

資料庫同步複製的挑戰

雖然 RADIUS 驗證是無狀態的,但 RADIUS 計費(Accounting)本質上是有狀態的。它會追蹤工作階段的啟動(Start)、持續使用情況(Interim-Update)以及終止(Stop)。對於使用 WiFi Analytics 或計費系統的場所,此計費資料在所有節點上必須保持一致。

使用複製資料庫(例如與 FreeRADIUS 整合的 MySQL 或 MariaDB)作為 RADIUS 叢集的後盾,對於實現強健的高可用性是強制性的。對於雙活佈署,需要同步多主機複製(例如 Galera Cluster 或 MySQL NDB Cluster)。同步複製可確保計費記錄同時寫入所有節點,從而防止在節點故障時遺失資料。主備設定中常用的傳統非同步複製會引入複製延遲。如果主節點在備用節點收到更新之前發生故障,活動工作階段資料將永久遺失,這可能會違反 PCI DSS 等合規性框架。

實作指南:雲端 vs 地端

架構決策的考量不僅止於如何進行伺服器叢集,還涉及這些伺服器的部署位置。對於多據點營運商而言,將驗證流量回傳至集中式的地端資料中心會導入 WAN 延遲,並在 WAN 連結處產生單一故障點。

Cloud RADIUS 平台

Cloud RADIUS 服務透過在全球多個可用區域託管驗證基礎架構,解決了地理分佈的挑戰。當使用者在分支機構連線時,請求會被路由至最近的雲端邊緣節點,從而將延遲降至最低。

architecture_overview.png

雲端平台本質上採用雙活(Active-Active)架構。可用區域之間的容錯移轉由供應商的內部負載平衡自動處理,完全為客戶的工程團隊抽離了複雜性。此模式通常提供 99.99% 的執行時間 SLA,並免除了手動憑證管理、作業系統修補和資料庫同步調整的需求。對於在分佈式校園中部署 WayfindingSensors 的組織,雲端託管驗證可確保一致的原則執行,而無需依賴本地化硬體。

地端部署考量因素

在高度受監管行業(例如特定的 醫療保健 或政府環境)中營運的組織,由於嚴格的數據主權規範,可能需要進行地端部署。在這些情境中,部署具有 Galera 同步複製功能的雙活 FreeRADIUS 叢集可提供最高水準的彈性。

然而,工程團隊必須考慮到營運開銷。在多個節點之間管理 TLS 憑證、確保設定一致性以及主動監控資料庫複製健康狀況,都需要專門的系統管理資源。硬體負載平衡器必須經過專門設定,以支援具有適當 RADIUS 健康檢查的 UDP 流量,因為許多標準負載平衡器僅針對 TCP HTTP/HTTPS 流量進行了最佳化。

RADIUS 高可用性最佳實踐

  1. 分佈而非複製:對於同時上線使用者超過 500 人的部署,應優先選擇雙活(Active-Active)架構而非主備(Active-Passive)設定,以最大化吞吐量並最小化容錯移轉延遲。
  2. 實施同步複製:利用同步多主機資料庫複製(例如 Galera Cluster),而非非同步的主從(Primary-Replica)模式,以保護具狀態的計費數據。
  3. 標準化憑證信任:在雙活叢集中,確保所有節點呈現相同的伺服器憑證,或來自完全相同憑證授權單位 (CA) 鏈的憑證。不一致將導致 EAP-TLS 和 PEAP 握手在節點輪替期間失敗。
  4. 調整 NAD 計時器:優化網路存取設備(Network Access Devices)上的 RADIUS 重試與逾時計時器。設定 2 秒逾時並重試 2 次,可在快速容錯移轉偵測與防止輕微網路擁塞期間發生過早容錯移轉之間取得平衡。
  5. 測試故障情境:將備用節點視為生產系統。定期模擬節點故障、資料庫非同步以及 WAN 鏈路中斷,以驗證自動容錯移轉機制是否按設計運作。

疑難排解與風險緩釋

RADIUS 高可用性中最常見的故障模式是設定偏差(configuration drift)。在主從(Active-Passive)架構中,管理員經常更新主要節點上的原則或更新憑證,卻忽略了備用節點。當發生容錯移轉事件時,備用節點會因憑證過期或原則過時而拒絕合法的流量。

為了降低此風險,請導入設定管理工具(例如 Ansible 或 Terraform),以在所有節點上對稱地部署變更。針對憑證管理,請利用自動更新協定(例如 ACME),並設定為同時在整個叢集內分發更新後的憑證。

另一個重大風險是負載平衡器設定錯誤。如果負載平衡器未執行應用程式層健康檢查(特別是驗證 UDP 連接埠 1812 的回應能力),它可能會繼續將流量路由到作業系統正在運行但 RADIUS 精靈(daemon)已崩潰的節點。請確保健康檢查明確驗證了 RADIUS 服務的可用性。

投資報酬率與業務影響

健全的 RADIUS 高可用性投資報酬率,主要透過風險緩釋與營運效率來衡量。驗證中斷會立即導致員工生產力損失,並對面向公眾的場所造成嚴重的商譽損害。

藉由從手動、單一伺服器部署轉型為自動化、雙活(Active-Active)架構(特別是透過 Cloud RADIUS),企業可以收回先前投入於例行維護的大量工程工時。這種營運效率使網路團隊能夠專注於策略性倡議,例如部署 The Core SD WAN Benefits for Modern Businesses 或優化高密度覆蓋,而不是忙於撲滅驗證失敗的火頭。歸根結底,可靠的驗證是所有後續網路服務賴以生存的基礎架構。

關鍵定義

雙活架構 (Active-Active Architecture)

一種高可用性設計,其中多個 RADIUS 伺服器同時處理驗證請求,分擔負載並提供即時容錯移轉,而不會產生偵測延遲。

對於高密度場所(體育場、大型零售店)至關重要,因為單一伺服器無法處理尖峰時段的驗證突增。

主備架構 (Active-Passive Architecture)

一種備援模型,其中主要伺服器處理所有流量,而次要伺服器保持閒置待命狀態,直到主要伺服器發生故障。

適用於規模較小、對成本敏感的部署,但在網路存取裝置偵測到故障時,會引入 6 到 18 秒的容錯移轉延遲。

同步複製 (Synchronous Replication)

一種資料庫複製方法,在交易被視為完成之前,資料會同時寫入叢集中的所有節點。

對於雙活 (Active-Active) RADIUS 計費資料庫(如 Galera Cluster)是強制性的,以防止資料遺失並確保合規性。

非同步複製 (Asynchronous Replication)

一種資料庫複製方法,主要節點先記錄資料,隨後再將其複製到次要節點,這會引入輕微的延遲(滯後)。

常用於主備 (Active-Passive) 設定中,但如果主要節點突然發生故障,則存在遺失近期計費記錄的風險。

網路存取裝置 (Network Access Device, NAD)

代表使用者向 RADIUS 伺服器請求驗證的硬體元件(例如 WiFi 存取點、交換器或 VPN 閘道)。

NAD 的內部重試和逾時定時器決定了主備 (Active-Passive) 容錯移轉發生的速度。

無狀態協定 (Stateless Protocol)

一種通訊協定,將每個請求視為獨立的交易,與之前的任何請求無關。

透過 UDP 進行的 RADIUS 驗證是無狀態的,允許負載平衡器將任何請求無縫路由到任何作用中的伺服器。

組態漂移 (Configuration Drift)

隨著時間推移,次要或備份伺服器在原則、更新或憑證方面與主要伺服器失去同步的現象。

當次要節點被迫接管時,這是主備 (Active-Passive) RADIUS 部署失敗的首要原因。

Cloud RADIUS

託管於全球分佈式雲端基礎架構上的受管驗證服務,提供內建的雙活 (Active-Active) 備援與自動擴充功能。

取代了 IT 團隊手動建置、修補和監控備援地端 RADIUS 伺服器的需求。

範例

一家歐洲飯店集團在六個國家管理 45 家物業。他們目前在每家物業運行獨立的 FreeRADIUS 虛擬機器。最近某個據點因 TLS 憑證過期,導致在一場大型會議期間 Guest WiFi 完全中斷。他們應該如何重新設計其驗證架構,以防止局部性中斷並減少維護開銷?

該飯店集團應從本地化的單節點 FreeRADIUS 執行個體,遷移至採用 Active-Active 架構的集中式 Cloud RADIUS 平台。透過利用具有地理分佈邊緣節點的雲端服務供應商,來自每家物業的驗證請求將被路由至最近的區域節點,從而將延遲降至最低。集中式原則管理允許 IT 團隊僅需定義一次驗證規則,即可套用至全球。雲端服務供應商會自動處理 TLS 憑證輪替、作業系統修補和資料庫同步複製。

考官評語: 此方法消除了 45 個單點故障,並免除了針對每個站點進行維護的營運負擔。Active-Active 雲端架構可確保在特定區域節點發生問題時,流量會自動且即時地路由至下一個最近的可用性區域,從而使房客感受不到任何停機時間。

一座國家體育場正準備舉辦一場有 60,000 名觀眾參加的活動。他們目前的 RADIUS 設定為 Active-Passive 配置。在壓力測試期間,當閘門開放時,主伺服器因每分鐘處理 8,000 次驗證請求而達到飽和,導致嚴重的連線延遲,而備用伺服器則完全處於閒置狀態。他們該如何優化此部署?

網路工程團隊必須將部署從 Active-Passive 轉換為 Active-Active。首先,他們應該重新配置體育場的網路存取設備 (NAD),以在兩台 RADIUS 伺服器之間利用輪詢 (Round-Robin) 負載平衡,立即使其驗證吞吐量翻倍。其次,他們應該佈署第三個 RADIUS 節點,以提供因應尖峰突增所需的緩衝空間。最後,為了確保所有三個作用中節點的帳務資料保持一致,他們必須實作同步多主機資料庫複製解決方案,例如 Galera Cluster。

考官評語: 轉換為 Active-Active 可以水平擴充處理能力,直接解決瓶頸問題。在此情境中,利用同步資料庫複製至關重要;它能確保在大量使用者湧入期間,即使某個節點發生故障,工作階段帳務資料也不會遺失,這對於精確的分析和合規性而言是必不可少的。

練習題

Q1. 您的企業零售客戶需要為其銷售點(POS)終端機提供高可用性的 RADIUS 解決方案。他們有嚴格的 PCI DSS 合規性要求,規定在伺服器容錯移轉期間絕對不能遺失任何計費工作階段數據。您必須為 RADIUS 後端實作哪種資料庫複製策略?

提示:請考量同時寫入數據與事後複製數據之間的差異。

查看標準答案

您必須實作同步複製(例如 Galera Cluster 或 MySQL NDB Cluster)。同步複製可確保在確認交易之前,計費記錄已同時提交到所有節點。如果您使用非同步複製,節點故障可能會導致尚未複製到次要資料庫的近期交易遺失,從而違反嚴格的合規性要求。

Q2. 某大學校園網路使用主從式(Active-Passive)RADIUS 架構。學生抱怨當主要伺服器進行維護時,他們的筆記型電腦需要將近 20 秒才能連線到 WiFi。無線基地台(AP)設定為 3 秒的 RADIUS 逾時和 5 次重試。在不改變伺服器架構的情況下,您該如何縮短容錯移轉的延遲?

提示:根據 NAD 計時器在嘗試次要伺服器之前的設定,計算最大等待時間。

查看標準答案

您應該調整網路存取裝置(無線基地台)上的計時器。目前,AP 會等待 3 秒並重試 5 次,導致在容錯移轉到備用伺服器之前產生 18 秒的延遲(3 秒 × 共 6 次嘗試)。藉由將設定縮減為 2 秒逾時和 2 次重試,容錯移轉偵測時間將降至 6 秒,從而顯著改善維護期間的使用者體驗。

Q3. 您正在將多據點企業網路從主從式(Active-Passive)地端 RADIUS 伺服器,遷移到雙活(Active-Active)Cloud RADIUS 平台。在試行階段,裝置成功向 Cloud Node A 進行驗證,但當負載平衡器將它們路由到 Cloud Node B 時,EAP-TLS 握手失敗。最可能的設定錯誤是什麼?

提示:請考量用戶端裝置在與新伺服器建立安全 EAP 通道時會驗證什麼。

查看標準答案

最可能的問題是憑證信任不相符。在雙活(Active-Active)叢集中,所有 RADIUS 節點必須呈現完全相同的伺服器憑證(或由完全相同的受信任 CA 鏈發行的憑證)。如果 Cloud Node B 呈現了用戶端裝置不信任的其他憑證,EAP-TLS 握手將被用戶端拒絕,導致即使伺服器運作正常,驗證仍會失敗。