Zum Hauptinhalt springen

RADIUS Server High Availability: Active-Active vs. Active-Passive

Ein maßgeblicher technischer Leitfaden für IT-Manager und Netzwerkarchitekten zur Bewertung von RADIUS-Hochverfügbarkeitsarchitekturen. Er vergleicht Active-Active- und Active-Passive-Bereitstellungen, beschreibt die Anforderungen an die Datenbankreplikation und erklärt, wie Cloud RADIUS die Failover-Latenz für Unternehmensstandorte minimiert.

📖 6 Min. Lesezeit📝 1,317 Wörter🔧 2 ausgearbeitete Beispiele3 Übungsfragen📚 8 Schlüsseldefinitionen

Diesen Leitfaden anhören

Podcast-Transkript ansehen
# RADIUS-Server-Hochverfügbarkeit: Aktiv-Aktiv vs. Aktiv-Passiv ## Purple Technical Briefing — Podcast-Skript (~10 Minuten) --- **TEIL 1 — EINFÜHRUNG & KONTEXT (ca. 1 Minute)** Willkommen beim Purple Technical Briefing. Ich bin Ihr Moderator, und heute befassen wir uns mit einer der folgenschwersten Infrastrukturentscheidungen für jedes Unternehmen, das Enterprise-WiFi betreibt: der Hochverfügbarkeit von RADIUS-Servern. Wenn Sie als Netzwerkarchitekt oder IT-Leiter für die Authentifizierungsinfrastruktur einer Hotelgruppe, einer Einzelhandelskette, eines Stadions oder einer öffentlichen Einrichtung verantwortlich sind, liefert Ihnen dieses Briefing die Frameworks und die spezifischen technischen Details, die Sie benötigen, um die richtige Entscheidung zu treffen — und die Fehler zu vermeiden, die im ungünstigsten Moment zu Authentifizierungsausfällen führen. Lassen Sie mich die Ausgangslage beschreiben. RADIUS — Remote Authentication Dial-In User Service — ist der Gatekeeper für Ihr Netzwerk. Jedes Mal, wenn sich ein Mitarbeiter über 802.1X verbindet oder ein Gast sich über Ihr Captive Portal authentifiziert, ist RADIUS die Engine, die die Anmeldedaten überprüft und den Zugriff autorisiert. Es ist das Rückgrat von IEEE 802.1X- und WPA3-Enterprise-Bereitstellungen. Und im Gegensatz zu den meisten IT-Diensten, bei denen die Leistung bei einem Ausfall schrittweise nachlässt, ist RADIUS binär: Es funktioniert entweder, oder niemand kommt ins Netzwerk. Diese Asymmetrie macht die Hochverfügbarkeit so kritisch. --- **TEIL 2 — TECHNISCHER DEEP-DIVE (ca. 5 Minuten)** Beginnen wir mit den Grundlagen. RADIUS arbeitet über UDP — typischerweise Port 1812 für die Authentifizierung und 1813 für das Accounting. Die verbindunglose Natur von UDP ist eigentlich ein Vorteil für das HA-Design: Da jede Authentifizierungsanfrage in sich geschlossen ist, kann jeder Server in einem Cluster jede Anfrage verarbeiten, ohne wissen zu müssen, was zuvor passiert ist. Dies ist die architektonische Eigenschaft, die Aktiv-Aktiv-Bereitstellungen so elegant macht. Es gibt zwei primäre Hochverfügbarkeitsmodelle, die Sie verstehen müssen. **Aktiv-Passiv** ist der traditionelle Ansatz. Sie haben einen primären RADIUS-Server, der den gesamten Authentifizierungsverkehr abwickelt, und einen sekundären Server im Standby-Modus, der replizierte Daten empfängt, aber keine Anfragen verarbeitet. Wenn der primäre Server ausfällt, erkennt das Network Access Device — Ihr Access Point, Ihr Switch, Ihr VPN-Gateway — den Ausfall und leitet den Datenverkehr an den sekundären Server um. Wie lange dauert dieses Failover? Hier kommt es auf die Details an. Das NAS sendet eine RADIUS-Anfrage und wartet. Das Standard-Paket-Timeout beträgt in der Regel zwei Sekunden. Danach wird ein neuer Versuch gestartet — meist drei Versuche pro Server. Bei zwei konfigurierten Servern müssen Sie in einer gut abgestimmten Bereitstellung mit einer maximalen Failover-Erkennungszeit von etwa sechs bis zwölf Sekunden rechnen. Im schlimmsten Fall mit drei Servern und Standard-Timern kann sich das auf achtzehn Sekunden hinziehen. Für einen Hotelgast, der beim Check-in eine Verbindung herstellen möchte, oder einen Mitarbeiter im Einzelhandel, der eine Transaktion verarbeiten will, ist das ein schmerzhaftes Zeitfenster. **Active-Active** ist der anspruchsvollere Ansatz und für die meisten Enterprise-Bereitstellungen die richtige Wahl. Beide – oder alle – RADIUS-Server verarbeiten Authentifizierungsanfragen gleichzeitig. Der Datenverkehr wird entweder per Round-Robin-Verfahren oder über einen dedizierten Load Balancer über das Cluster verteilt. Fällt ein Node aus, übernehmen die verbleibenden Nodes dessen Datenverkehr sofort. Es gibt keine Verzögerung bei der Failover-Erkennung, da es kein Failover im herkömmlichen Sinne gibt: Der Load Balancer stoppt einfach das Senden von Anfragen an den fehlerhaften Node, in der Regel innerhalb von ein bis zwei Sekunden basierend auf den Health-Check-Intervallen. Die Leistungsvorteile summieren sich. In einer großen Location – wie einem Stadion mit 60.000 Sitzplätzen oder einem Konferenzzentrum, das eine große Messe veranstaltet – kann es zu Tausenden von gleichzeitigen Authentifizierungsanfragen kommen, wenn sich die Türen öffnen oder eine Sitzungspause eintritt. Ein einzelner RADIUS-Server, selbst ein gut dimensionierter, kann zum Nadelöhr werden. Ein Active-Active-Cluster skaliert horizontal: Fügen Sie einen weiteren Node hinzu, und Sie erhalten proportional mehr Kapazität. Lassen Sie uns nun über die Datenbankebene sprechen, da hier viele Bereitstellungen in Schwierigkeiten geraten. Die RADIUS-Authentifizierung selbst ist weitgehend zustandslos – der Server gleicht die Anmeldedaten mit einem Verzeichnis ab und gibt ein „Accept“ oder „Reject“ zurück. Das RADIUS-Accounting ist jedoch zustandsbehaftet: Es verfolgt den Sitzungsstart, Zwischen-Updates und Sitzungsstopp-Ereignisse. Wenn Sie das Accounting für die Abrechnung, die Compliance-Protokollierung oder das Sitzungsmanagement nutzen, müssen diese Daten über alle Nodes hinweg konsistent sein. Der Standardansatz besteht darin, Ihr RADIUS-Cluster mit einer replizierten Datenbank zu hinterlegen. FreeRADIUS, der weltweit am häufigsten eingesetzte Open-Source-RADIUS-Server, lässt sich in MySQL und MariaDB integrieren. Für Active-Active-Bereitstellungen haben Sie zwei Hauptoptionen: MySQL NDB Cluster, das eine synchrone Multi-Master-Replikation mit einem Failover im Subsekundenbereich bietet, oder Galera Cluster, das eine ähnliche synchrone Replikation bei etwas einfacherem Betriebsmanagement bietet. Beide eliminieren das Risiko von Datenverlusten bei einem Node-Ausfall. Die asynchrone Replikation – die Standard-MySQL-Primary-Replica – ist kostengünstiger, führt jedoch zu einer Replikationsverzögerung, die zum Verlust von Accounting-Datensätzen führen kann, wenn der Primary ausfällt, bevor die Änderungen repliziert wurden. Lassen Sie mich die Frage der geografischen Verteilung ansprechen, da dies für Betreiber mit mehreren Standorten immer relevanter wird. Wenn Sie eine Einzelhandelskette mit 200 Filialen oder eine Hotelgruppe mit Häusern in mehreren Ländern betreiben, stellt sich nicht nur die Frage „Wie mache ich meinen RADIUS-Server redundant?“, sondern „Wo sollten sich meine RADIUS-Server im Verhältnis zu meinen Access Points befinden?“ Das Backhauling von Authentifizierungs-Traffic von einem Remote-Standort zu einem zentralen Rechenzentrum führt zu WAN-Latenzzeiten und einem Single Point of Failure an der WAN-Verbindung. Wenn diese Verbindung ausfällt, kann der Remote-Standort niemanden authentifizieren, unabhängig davon, wie redundant Ihr zentraler RADIUS-Cluster ist. Die Lösung besteht entweder darin, lokale RADIUS-Instanzen an jedem Standort bereitzustellen – was einen erheblichen betrieblichen Aufwand bedeutet – oder einen Cloud-RADIUS-Dienst mit geografisch verteilten Edge-Knoten zu nutzen. Cloud-RADIUS-Plattformen lösen das HA-Problem auf architektonischer Ebene. Anstatt dass Sie eine redundante Infrastruktur aufbauen und verwalten, betreibt der Anbieter RADIUS über mehrere Availability Zones und Regionen hinweg. Das Failover zwischen den Knoten erfolgt automatisch, in der Regel in weniger als einer Sekunde, da es durch das interne Load Balancing der Plattform und nicht durch NAS-Retry-Timer gesteuert wird. Die SLA-Zusagen von Enterprise-Cloud-RADIUS-Anbietern liegen in der Regel bei 99,99 % Betriebszeit – das entspricht weniger als 53 Minuten Ausfallzeit pro Jahr. Hier gibt es auch eine wichtige Compliance-Dimension. PCI DSS erfordert strenge Authentifizierungskontrollen für Karteninhaber-Datenumgebungen. Die GDPR behandelt Authentifizierungsprotokolle als personenbezogene Daten, was eine angemessene Handhabung und Kontrollen zur Datenresidenz erfordert. Cloud-RADIUS-Anbieter verfügen in der Regel über SOC 2 Type II-Zertifizierungen und bieten GDPR-Datenverarbeitungsvereinbarungen mit regionalen Optionen zur Datenresidenz an. On-Premise-Bereitstellungen geben Ihnen die volle Kontrolle über den Datenspeicherort, was in Gesundheitsumgebungen unter NHS-Data-Governance-Frameworks oder in Regierungseinrichtungen mit Anforderungen an die Datensouveränität von Bedeutung ist. --- **TEIL 3 — IMPLEMENTIERUNGSEMPFEHLUNGEN & FALLSTRICKE (ca. 2 Minuten)** Lassen Sie mich Sie durch zwei reale Szenarien führen, die diese Prinzipien in der Praxis veranschaulichen. Erstens: Eine europäische Hotelgruppe mit 45 Hotels in sechs Ländern. Ihr IT-Team aus drei Ingenieuren betrieb FreeRADIUS auf virtuellen Maschinen an jedem Standort – 45 separate Instanzen, die gepatcht, überwacht und gewartet werden mussten. Als an einem Standort ein TLS-Zertifikat ablief, führte dies während einer großen Konferenz zu einem vollständigen Ausfall des Gäste-WiFi. Die Behebung erforderte, dass sich ein Ingenieur aus der Ferne einwählte und das Zertifikat manuell erneuerte – ein Prozess, der 40 Minuten dauerte, in denen sich die Gäste nicht verbinden konnten. Nach der Migration zu einem Cloud-RADIUS-Dienst mit zentralisiertem Richtlinienmanagement konnte das Team die Wartung pro Standort vollständig einsparen. Die Zertifikatsrotation erfolgt nun automatisch. Die drei Ingenieure gewannen rund 40 Prozent ihrer Zeit zurück, die sie zuvor für den RADIUS-Betrieb aufgewendet hatten. Noch wichtiger war, dass durch die Active-Active-Architektur der Plattform über mehrere Cloud-Regionen hinweg ein einzelner Knotenausfall – der zuvor zu einem Standortausfall geführt hätte – zu einem unbedeutenden Ereignis wurde. Zweites Szenario: Ein nationales Sportstadion mit 60.000 Fans bei einer Großveranstaltung. Das Netzwerkteam hatte eine aktiv-passive RADIUS-Konfiguration mit einem primären Server und einem Hot-Standby implementiert. Während eines Lasttests vor der Veranstaltung stellten sie fest, dass der primäre Server während des Authentifizierungsansturms bei der Stadionöffnung überlastet war – er verarbeitete 8.000 Authentifizierungsanfragen pro Minute. Der passive sekundäre Server lief im Leerlauf, während der primäre überlastet war. Die Lösung bestand darin, die NAS-Geräte so umzukonfigurieren, dass sie ein Round-Robin-Load-Balancing über beide Server hinweg nutzen, was die Bereitstellung effektiv in eine aktiv-aktive Konfiguration umwandelte. Der Authentifizierungsdurchsatz verdoppelte sich sofort. Zudem wurde ein dritter Server hinzugefügt, um Puffer für die Spitzenlast zu schaffen, und eine Galera-Cluster-Replikation für die Accounting-Datenbank konfiguriert. Das Ergebnis war eine Bereitstellung, die den Ausfall eines einzelnen Knotens ohne für den Benutzer sichtbare Auswirkungen verkraften konnte. Nun zu den Fallstricken. Der häufigste Fehler besteht darin, den sekundären RADIUS-Server als „Set-and-Forget“-Backup zu betrachten. Konfigurationen weichen ab. Zertifikate auf dem sekundären Server laufen ab, während der primäre einwandfrei läuft. Wenn der primäre Server schließlich ausfällt und der sekundäre übernimmt, scheitert auch dieser – aus einem völlig anderen Grund. Die Lösung ist einfach: Testen Sie Ihr Failover regelmäßig, mindestens vierteljährlich, und behandeln Sie beide Knoten als Produktionssysteme. Der zweite Fallstrick ist die Vernachlässigung der Datenbank-Replikationsverzögerung. Wenn Sie eine asynchrone Replikation verwenden und Ihr primärer Datenbankknoten ausfällt, verlieren Sie möglicherweise Accounting-Datensätze für Sitzungen, die im Moment des Ausfalls aktiv waren. Für die PCI-DSS-Compliance ist dies eine schwerwiegende Lücke. Verwenden Sie eine synchrone Replikation – Galera oder NDB – für jede Bereitstellung, bei der die Integrität der Accounting-Daten eine Compliance-Anforderung ist. --- **TEIL 4 — SCHNELLE FRAGEN & ANTWORTEN (ca. 1 Minute)** Lassen Sie mich die Fragen beantworten, die ich von Netzwerkarchitekten am häufigsten höre. „Was ist die minimale viable HA-Konfiguration?“ Zwei RADIUS-Server mit aktiv-passivem Failover, Shared-Secret-Synchronisation und einem replizierten Datenbank-Backend. Das ist das absolute Minimum. Ab 500 gleichzeitigen Benutzern sollten Sie auf eine aktiv-aktive Konfiguration umsteigen. „Kann ich einen Hardware-Load-Balancer für RADIUS verwenden?“ Ja, aber RADIUS verwendet UDP, und viele Load Balancer sind für TCP optimiert. Stellen Sie sicher, dass Ihr Load Balancer UDP-Load-Balancing mit Health Checks unterstützt. HAProxy Enterprise verfügt über ein dediziertes RADIUS-UDP-Modul. F5 BIG-IP unterstützt dies nativ. „Wie handhabe ich das EAP-Zertifikatsvertrauen in einem HA-Cluster?“ Alle Knoten müssen dasselbe Serverzertifikat oder zumindest Zertifikate aus derselben CA-Kette vorweisen. Clients validieren das Serverzertifikat während der EAP-TLS- und PEAP-Handshakes – wenn Knoten unterschiedliche Zertifikate vorweisen, kommt es nach dem Failover zu Authentifizierungsfehlern. „Funktioniert Cloud-RADIUS mit einem lokalen Active Directory?“ Ja, über einen leichtgewichtigen Connector oder LDAP-Proxy, der Ihr lokales AD abfragt, ohne es direkt dem Internet auszusetzen. Dies ist das Standard-Integrationsmuster für Hybrid-Umgebungen. --- **TEIL 5 — ZUSAMMENFASSUNG & NÄCHSTE SCHRITTE (ca. 1 Minute)** Lassen Sie mich mit den wichtigsten Entscheidungen schließen, die Sie treffen müssen. Wenn Sie weniger als 500 gleichzeitige Benutzer an einem einzigen Standort mit einem stabilen Team zur Verwaltung der Infrastruktur haben, ist Active-Passive mit einem gut getesteten Failover-Verfahren eine vertretbare Wahl. Halten Sie es einfach, testen Sie es regelmäßig und nutzen Sie synchrone Datenbankreplikation. Wenn Sie einen standortübergreifenden Bestand oder einen Veranstaltungsort mit hoher Dichte betreiben oder die Bandbreite Ihres Teams begrenzt ist, ist Active-Active die richtige Architektur — und Cloud-RADIUS ist der schnellste Weg dorthin, ohne die Infrastruktur selbst aufbauen zu müssen. Für welches Modell Sie sich auch entscheiden, die Prinzipien sind dieselben: verteilen statt duplizieren, Failover-Entscheidungen automatisieren und Ihre Ausfallszenarien testen, bevor sie Sie testen. Weitere Informationen darüber, wie die Plattform von Purple die RADIUS-Authentifizierung im großen Stil handhabt — einschließlich der Integration mit 802.1X, WPA3 Enterprise und Gäste-WiFi-Portalen —, finden Sie unter purple.ai. Bis zum nächsten Mal. --- *Ende des Skripts. Ungefähre Lesezeit bei 150 Wörtern pro Minute: 10 Minuten.*

header_image.png

Executive Summary

Für Unternehmensnetzwerke ist die Authentifizierung binär: Entweder sie funktioniert einwandfrei, oder der Geschäftsbetrieb kommt vollständig zum Erliegen. RADIUS (Remote Authentication Dial-In User Service) fungiert als kritischer Gatekeeper für IEEE 802.1X, WPA3 Enterprise und Guest WiFi Implementierungen in modernen Standorten. Im Gegensatz zu Anwendungsdiensten, die bei Überlastung kontrolliert an Leistung verlieren, blockiert ein RADIUS-Ausfall sofort den Netzwerkzugriff für Benutzer, Point-of-Sale-Terminals und betriebliche Geräte.

Dieser technische Leitfaden bewertet die Architekturmodelle für die Bereitstellung hochverfügbarer RADIUS-Infrastrukturen. Insbesondere stellt er traditionelle Active-Passive-Konfigurationen modernen Active-Active-Clustern gegenüber. Für IT-Manager, Netzwerkarchitekten und Betriebsleiter von Standorten, die hochverdichtete Umgebungen wie Retail , Hospitality und Stadien verwalten, ist das Verständnis dieser Failover-Strategien, Load-Balancing-Mechanismen und Datenbank-Replikationsanforderungen unerlässlich.

Darüber hinaus untersucht dieser Leitfaden, wie Cloud RADIUS-Plattformen die Komplexität der Hochverfügbarkeit abstrahieren und automatisches Failover sowie elastische Skalierbarkeit bieten, ohne den betrieblichen Aufwand für die Wartung redundanter On-Premise-Infrastrukturen zu verursachen. Durch die Anwendung dieser herstellerneutralen Best Practices können Engineering-Teams Authentifizierungsarchitekturen entwerfen, die Single Points of Failure eliminieren und strenge Service Level Agreements (SLAs) für die Betriebszeit erfüllen.

Technischer Deep-Dive: RADIUS-Architektur verstehen

RADIUS arbeitet als Client-Server-Protokoll über UDP und nutzt in der Regel Port 1812 für die Authentifizierung und Port 1813 für das Accounting, wie in RFC 2865 und RFC 2866 definiert. Die zustandslose Natur von UDP-Authentifizierungsanfragen ist ein struktureller Vorteil für das Design von Hochverfügbarkeit. Da jedes Access-Request-Paket alle erforderlichen Anmeldedaten und Parameter enthält, kann jeder RADIUS-Server innerhalb eines Clusters jede Anfrage unabhängig verarbeiten, ohne dass eine komplexe Zustandssynchronisierung für die Authentifizierungsphase selbst erforderlich ist.

Active-Passive-Architektur

In einer Active-Passive-Bereitstellung (oder Primary-Standby-Bereitstellung) verarbeitet ein einzelner RADIUS-Server den gesamten eingehenden Authentifizierungs- und Accounting-Verkehr. Ein sekundärer Server bleibt online, aber inaktiv. Er empfängt Datenbank-Replikations-Updates, antwortet jedoch nicht aktiv auf Network Access Devices (NADs) wie Access Points, Switches oder VPN-Gateways.

Wenn der primäre Server ausfällt, erkennt das NAD das Timeout und leitet nachfolgende Anfragen an den sekundären Server weiter. Die Failover-Erkennungszeit hängt vollständig von den Konfigurationstimern des NAD ab. Ein typisches NAD sendet eine RADIUS-Anfrage und wartet auf ein Standard-Paket-Timeout (oft zwei Sekunden). Wenn keine Antwort eingeht, wird ein neuer Versuch unternommen. Bei einer Standardkonfiguration von drei Versuchen pro Server kann das NAD bis zu sechs Sekunden warten, bevor es den primären Server als ausgefallen deklariert und ein Failover auf den sekundären Server durchführt. In Umgebungen mit drei konfigurierten Servern kann sich dieses Failover-Fenster auf bis zu achtzehn Sekunden verlängern. Für einen stark frequentierten Hospitality -Standort oder eine Retail -Umgebung, in der Transaktionen verarbeitet werden, bedeutet diese Verzögerung eine spürbare Serviceunterbrechung.

Active-Active-Architektur

Im Gegensatz dazu verteilt eine Active-Active-Architektur die Authentifizierungslast gleichzeitig auf mehrere betriebsbereite RADIUS-Server. Der Datenverkehr wird entweder über eine Round-Robin-Konfiguration auf den NADs oder über einen dedizierten Load Balancer an den Cluster geleitet.

comparison_chart.png

Dieses Modell eliminiert die bei Active-Passive-Setups systembedingte Verzögerung bei der Failover-Erkennung. Wenn ein Knoten ausfällt, leitet der Load Balancer (oder die NADs mittels Round-Robin) den Datenverkehr einfach nicht mehr an den nicht reagierenden Server weiter, in der Regel innerhalb von ein bis zwei Sekunden basierend auf den Health-Check-Intervallen. Die verbleibenden aktiven Knoten übernehmen den Datenverkehr sofort. Darüber hinaus lassen sich Active-Active-Cluster horizontal skalieren; um Kapazitäten für Veranstaltungen mit hoher Dichte hinzuzufügen, müssen lediglich zusätzliche Knoten im Cluster bereitgestellt werden.

Die Herausforderung der Datenbankreplikation

Während die RADIUS-Authentifizierung zustandslos ist, ist das RADIUS-Accounting von Natur aus zustandsbehaftet. Es verfolgt den Sitzungsstart (Start), die laufende Nutzung (Interim-Update) und die Beendigung (Stop). Für Standorte, die WiFi Analytics oder Abrechnungssysteme nutzen, müssen diese Accounting-Daten über alle Knoten hinweg konsistent bleiben.

Die Absicherung eines RADIUS-Clusters mit einer replizierten Datenbank (wie MySQL oder MariaDB integriert mit FreeRADIUS) ist für eine robuste Hochverfügbarkeit zwingend erforderlich. Für Active-Active-Bereitstellungen ist eine synchrone Multi-Master-Replikation – wie Galera Cluster oder MySQL NDB Cluster – erforderlich. Die synchrone Replikation stellt sicher, dass ein Accounting-Datensatz gleichzeitig auf allen Knoten geschrieben wird, was Datenverlust bei Ausfall eines Knotens verhindert. Die traditionelle asynchrone Replikation, die häufig in Active-Passive-Setups verwendet wird, führt zu Replikationsverzögerungen. Wenn der primäre Knoten ausfällt, bevor der sekundäre das Update erhält, gehen aktive Sitzungsdaten dauerhaft verloren, was gegen Compliance-Frameworks wie PCI DSS verstoßen kann.

Implementierungsleitfaden: Cloud vs. On-Premise

Die architektonische Entscheidung geht über die Frage hinaus, wie Server geclustert werden sollen; sie betrifft auch den Standort dieser Server. Für Betreiber mit mehreren Standorten führt das Backhauling des Authentifizierungsverkehrs zu einem zentralisierten On-Premise-Rechenzentrum zu WAN-Latenzzeiten und schafft einen Single Point of Failure an der WAN-Verbindung.

Cloud-RADIUS-Plattformen

Cloud-RADIUS-Dienste lösen geografische Verteilungsprobleme, indem sie die Authentifizierungsinfrastruktur über mehrere globale Verfügbarkeitszonen hinweg hosten. Wenn sich ein Benutzer an einem Filialstandort verbindet, wird die Anfrage an den nächstgelegenen Cloud-Edge-Knoten weitergeleitet, was die Latenz minimiert.

architecture_overview.png

Cloud-Plattformen nutzen von Natur aus Active-Active-Architekturen. Das Failover zwischen Verfügbarkeitszonen wird automatisch durch das interne Load Balancing des Anbieters abgewickelt, wodurch die Komplexität vollständig vom Engineering-Team des Kunden ferngehalten wird. Dieses Modell bietet in der Regel SLAs von 99,99 % Betriebszeit und macht manuelle Zertifikatsverwaltung, Betriebssystem-Patching und Datenbank-Replikations-Tuning überflüssig. Für Organisationen, die Wayfinding oder Sensors über verteilte Campusse hinweg bereitstellen, gewährleistet die in der Cloud gehostete Authentifizierung eine konsistente Richtliniendurchsetzung ohne lokale Hardware-Abhängigkeiten.

Überlegungen zur On-Premise-Bereitstellung

Organisationen, die in stark regulierten Sektoren tätig sind – wie z. B. in bestimmten Bereichen des Healthcare -Sektors oder in Behördenumgebungen –, benötigen aufgrund strenger Datensouveränitätsvorgaben unter Umständen On-Premise-Bereitstellungen. In diesen Szenarien bietet die Bereitstellung eines Active-Active FreeRADIUS-Clusters mit synchroner Galera-Replikation das höchste Maß an Ausfallsicherheit.

Engineering-Teams müssen jedoch den betrieblichen Aufwand berücksichtigen. Die Verwaltung von TLS-Zertifikaten über mehrere Knoten hinweg, die Gewährleistung der Konfigurationskonsistenz und die aktive Überwachung des Zustands der Datenbankreplikation erfordern dedizierte administrative Ressourcen. Hardware-Load-Balancer müssen speziell für die Unterstützung von UDP-Verkehr mit entsprechenden RADIUS-Health-Checks konfiguriert werden, da viele Standard-Load-Balancer ausschließlich für TCP-HTTP/HTTPS-Verkehr optimiert sind.

Best Practices für RADIUS-Hochverfügbarkeit

  1. Verteilen statt Duplizieren: Bei Bereitstellungen mit mehr als 500 gleichzeitigen Benutzern sollten Active-Active-Architekturen gegenüber Active-Passive-Setups bevorzugt werden, um den Durchsatz zu maximieren und die Failover-Latenz zu minimieren.
  2. Synchrone Replikation implementieren: Schützen Sie zustandsbehaftete Accounting-Daten, indem Sie eine synchrone Multi-Master-Datenbankreplikation (z. B. Galera Cluster) anstelle von asynchronen Primary-Replica-Modellen verwenden.
  3. Zertifikatsvertrauen standardisieren: Stellen Sie in einem Active-Active-Cluster sicher, dass alle Knoten das identische Serverzertifikat oder Zertifikate aus exakt derselben Certificate Authority (CA)-Kette vorweisen. Abweichungen führen dazu, dass EAP-TLS- und PEAP-Handshakes während der Knotenrotation fehlschlagen.
  4. NAD-Timer anpassen: Optimieren Sie die RADIUS-Wiederholungs- und Timeout-Timer auf Ihren Network Access Devices. Ein Timeout von zwei Sekunden mit zwei Wiederholungsversuchen bietet ein ausgewogenes Verhältnis zwischen schneller Failover-Erkennung und der Vermeidung vorzeitiger Failovers bei geringfügigen Netzwerkengpässen.
  5. Ausfallszenarien testen: Behandeln Sie sekundäre Knoten wie Produktivsysteme. Simulieren Sie regelmäßig Knotenausfälle, Datenbank-Desynchronisationen und WAN-Verbindungsabbrüche, um sicherzustellen, dass automatisierte Failover-Mechanismen wie geplant funktionieren.

Fehlerbehebung & Risikominimierung

Das häufigste Ausfallszenario bei RADIUS-Hochverfügbarkeit ist die Konfigurationsabweichung (Configuration Drift). In Active-Passive-Setups aktualisieren Administratoren häufig Richtlinien oder erneuern Zertifikate auf dem primären Knoten, vernachlässigen jedoch den sekundären. Tritt ein Failover-Ereignis ein, lehnt der sekundäre Knoten legitimen Datenverkehr aufgrund abgelaufener Anmeldedaten oder veralteter Richtlinien ab.

Um dieses Risiko zu minimieren, sollten Sie Konfigurationsmanagement-Tools (wie Ansible oder Terraform) implementieren, um Änderungen symmetrisch auf allen Knoten bereitzustellen. Nutzen Sie für das Zertifikatsmanagement automatisierte Erneuerungsprotokolle (wie ACME), die so konfiguriert sind, dass sie das aktualisierte Zertifikat gleichzeitig im gesamten Cluster verteilen.

Ein weiteres erhebliches Risiko ist die Fehlkonfiguration von Load Balancern. Wenn ein Load Balancer keine Health-Checks auf Anwendungsebene durchführt (insbesondere die Überprüfung der Reaktionsfähigkeit des UDP-Ports 1812), leitet er möglicherweise weiterhin Datenverkehr an einen Knoten weiter, auf dem das Betriebssystem zwar läuft, der RADIUS-Daemon jedoch abgestürzt ist. Stellen Sie sicher, dass Health-Checks die Verfügbarkeit des RADIUS-Dienstes explizit validieren.

ROI & geschäftliche Auswirkungen

Der Return on Investment für eine robuste RADIUS-Hochverfügbarkeit bemisst sich in erster Linie an der Risikominimierung und der betrieblichen Effizienz. Authentifizierungsausfälle führen zu sofortigen Produktivitätsverlusten für Mitarbeiter und schweren Reputationsschäden bei öffentlich zugänglichen Standorten.

Durch den Übergang von manuellen Single-Server-Bereitstellungen zu automatisierten Active-Active-Architekturen (insbesondere über Cloud RADIUS) gewinnen Unternehmen erhebliche Engineering-Stunden zurück, die zuvor für die routinemäßige Wartung aufgewendet wurden. Diese betriebliche Effizienz ermöglicht es Netzwerkteams, sich auf strategische Initiativen zu konzentrieren – wie die Bereitstellung von The Core SD WAN Benefits for Modern Businesses oder die Optimierung der High-Density-Abdeckung –, anstatt Authentifizierungsfehler zu bekämpfen. Letztendlich ist eine zuverlässige Authentifizierung das Fundament, auf dem alle nachfolgenden Netzwerkdienste aufbauen.

Schlüsseldefinitionen

Aktiv-Aktiv-Architektur

Ein Hochverfügbarkeitsdesign, bei dem mehrere RADIUS-Server Authentifizierungsanfragen gleichzeitig verarbeiten, wodurch die Last verteilt und ein sofortiges Failover ohne Erkennungsverzögerungen ermöglicht wird.

Unerlässlich für hochfrequentierte Standorte (Stadien, große Einzelhandelsflächen), an denen ein einzelner Server Spitzen bei den Authentifizierungsanfragen nicht bewältigen kann.

Aktiv-Passiv-Architektur

Ein Redundanzmodell, bei dem ein primärer Server den gesamten Datenverkehr abwickelt und ein sekundärer Server im Standby-Modus inaktiv bleibt, bis der primäre Server ausfällt.

Geeignet für kleinere, kostenbewusste Implementierungen, führt jedoch zu einer Failover-Verzögerung von 6 bis 18 Sekunden, während das Network Access Device den Ausfall erkennt.

Synchrone Replikation

Eine Methode der Datenbankreplikation, bei der Daten gleichzeitig auf alle Knoten in einem Cluster geschrieben werden, bevor die Transaktion als abgeschlossen gilt.

Zwingend erforderlich für Aktiv-Aktiv-RADIUS-Accounting-Datenbanken (wie Galera Cluster), um Datenverlust zu verhindern und Compliance zu gewährleisten.

Asynchrone Replikation

Eine Methode der Datenbankreplikation, bei der der primäre Knoten die Daten aufzeichnet und sie erst später auf sekundäre Knoten kopiert, was zu einer geringfügigen Verzögerung (Lag) führt.

Wird häufig in Aktiv-Passiv-Setups verwendet, birgt jedoch das Risiko, dass kürzlich erfasste Accounting-Daten verloren gehen, wenn der primäre Knoten abrupt ausfällt.

Network Access Device (NAD)

Die Hardwarekomponente (wie ein WiFi-Access-Point, Switch oder VPN-Gateway), die im Namen des Benutzers die Authentifizierung beim RADIUS-Server anfordert.

Die internen Wiederholungs- und Timeout-Timer des NAD bestimmen, wie schnell ein Aktiv-Passiv-Failover erfolgt.

Stateless-Protokoll

Ein Kommunikationsprotokoll, das jede Anfrage als unabhängige Transaktion behandelt, die in keiner Beziehung zu vorherigen Anfragen steht.

Die RADIUS-Authentifizierung über UDP ist stateless, sodass Load Balancer jede Anfrage nahtlos an jeden aktiven Server weiterleiten können.

Konfigurationsdrift

Das Phänomen, bei dem sekundäre oder Backup-Server im Laufe der Zeit in Bezug auf Richtlinien, Updates oder Zertifikate nicht mehr mit dem primären Server synchron sind.

Die Hauptursache für Ausfälle bei Aktiv-Passiv-RADIUS-Bereitstellungen, wenn der sekundäre Knoten gezwungen ist, die Kontrolle zu übernehmen.

Cloud RADIUS

Ein verwalteter Authentifizierungsdienst, der auf einer global verteilten Cloud-Infrastruktur gehostet wird und integrierte Aktiv-Aktiv-Redundanz sowie automatische Skalierung bietet.

Ersetzt die Notwendigkeit für IT-Teams, redundante On-Premise-RADIUS-Server manuell aufzubauen, zu patchen und zu überwachen.

Ausgearbeitete Beispiele

Eine europäische Hotelgruppe verwaltet 45 Standorte in sechs Ländern. Derzeit betreibt sie an jedem Standort unabhängige virtuelle FreeRADIUS-Maschinen. Ein kürzlich abgelaufenes TLS-Zertifikat an einem Standort führte während einer großen Konferenz zu einem vollständigen Ausfall des Gäste-WiFi. Wie sollte die Authentifizierungsarchitektur neu gestaltet werden, um lokale Ausfälle zu verhindern und den Wartungsaufwand zu reduzieren?

Die Hotelgruppe sollte von lokalen FreeRADIUS-Instanzen mit nur einem Knoten auf eine zentralisierte Cloud RADIUS-Plattform mit einer Active-Active-Architektur umsteigen. Durch die Nutzung eines Cloud-Anbieters mit geografisch verteilten Edge-Knoten werden Authentifizierungsanfragen von jedem Standort an den nächstgelegenen regionalen Knoten weitergeleitet, was die Latenz minimiert. Ein zentralisiertes Richtlinienmanagement ermöglicht es dem IT-Team, Authentifizierungsregeln einmal zu definieren und global anzuwenden. Der Cloud-Anbieter übernimmt automatisch die Rotation von TLS-Zertifikaten, das Einspielen von Betriebssystem-Patches und die Datenbankreplikation.

Kommentar des Prüfers: Dieser Ansatz eliminiert 45 Single Points of Failure und befreit das Team von der betrieblichen Last der standortbezogenen Wartung. Die Active-Active-Cloud-Architektur stellt sicher, dass bei Problemen mit einem bestimmten regionalen Knoten der Datenverkehr automatisch und verzögerungsfrei an die nächstgelegene Verfügbarkeitszone weitergeleitet wird, was zu keinerlei spürbaren Ausfallzeiten für die Gäste führt.

Ein nationales Sportstadion bereitet sich auf eine Veranstaltung mit 60.000 Besuchern vor. Das aktuelle RADIUS-Setup ist eine Active-Passive-Konfiguration. Während eines Lasttests war der primäre Server bei der Verarbeitung von 8.000 Authentifizierungsanfragen pro Minute bei der Stadionöffnung völlig überlastet, was zu massiven Verbindungsverzögerungen führte, während der sekundäre Server komplett im Leerlauf blieb. Wie lässt sich diese Bereitstellung optimieren?

Das Netzwerk-Engineering-Team muss die Bereitstellung von Active-Passive auf Active-Active umstellen. Zuerst sollten die Network Access Devices (NADs) des Stadions so konfiguriert werden, dass sie ein Round-Robin-Load-Balancing über beide RADIUS-Server hinweg nutzen, was den Authentifizierungsdurchsatz sofort verdoppelt. Zweitens sollten sie einen dritten RADIUS-Knoten bereitstellen, um den nötigen Spielraum für Spitzenlasten zu schaffen. Um schließlich sicherzustellen, dass die Accounting-Daten auf allen drei aktiven Knoten konsistent bleiben, müssen sie eine synchrone Multi-Master-Datenbankreplikationslösung wie Galera Cluster implementieren.

Kommentar des Prüfers: Die Umstellung auf Active-Active skaliert die Verarbeitungskapazität horizontal und behebt den Engpass direkt. Die Nutzung einer synchronen Datenbankreplikation ist in diesem Szenario von entscheidender Bedeutung; sie garantiert, dass Session-Accounting-Daten nicht verloren gehen, falls ein Knoten während des massiven Benutzeransturms ausfällt, was für präzise Analysen und Compliance unerlässlich ist.

Übungsfragen

Q1. Ihr Enterprise-Retail-Kunde benötigt eine hochverfügbare RADIUS-Lösung für seine Point-of-Sale-Terminals. Er hat strenge PCI DSS-Compliance-Anforderungen, die vorschreiben, dass bei einem Server-Failover absolut keine Accounting-Sitzungsdaten verloren gehen dürfen. Welche Datenbank-Replikationsstrategie müssen Sie für das RADIUS-Backend implementieren?

Hinweis: Berücksichtigen Sie den Unterschied zwischen Daten, die gleichzeitig geschrieben werden, und Daten, die nachträglich kopiert werden.

Musterlösung anzeigen

Sie müssen eine synchrone Replikation (wie einen Galera Cluster oder MySQL NDB Cluster) implementieren. Die synchrone Replikation stellt sicher, dass der Accounting-Datensatz gleichzeitig auf allen Knoten festgeschrieben wird, bevor die Transaktion bestätigt wird. Wenn Sie eine asynchrone Replikation verwenden würden, könnte ein Knotenausfall zum Verlust der jüngsten Transaktionen führen, die noch nicht in die sekundäre Datenbank kopiert wurden, was gegen die strengen Compliance-Anforderungen verstoßen würde.

Q2. Ein Universitäts-Campusnetzwerk nutzt ein Active-Passive-RADIUS-Setup. Studenten beschweren sich, dass es fast 20 Sekunden dauert, bis sich ihre Laptops mit dem WiFi verbinden, wenn der primäre Server gewartet wird. Die Access Points sind mit einem RADIUS-Timeout von 3 Sekunden und 5 Wiederholungsversuchen konfiguriert. Wie können Sie die Failover-Verzögerung reduzieren, ohne die Serverarchitektur zu ändern?

Hinweis: Berechnen Sie die maximale Wartezeit basierend auf den NAD-Timern, bevor ein Versuch auf dem sekundären Server gestartet wird.

Musterlösung anzeigen

Sie sollten die Timer auf den Network Access Devices (Access Points) anpassen. Derzeit wartet der AP 3 Sekunden und versucht es 5 Mal erneut, was zu einer Verzögerung von 18 Sekunden (3 Sekunden × 6 Versuche insgesamt) führt, bevor ein Failover auf den passiven Server erfolgt. Durch die Reduzierung der Konfiguration auf ein Timeout von 2 Sekunden und 2 Wiederholungsversuche sinkt die Failover-Erkennungszeit auf 6 Sekunden, was die Benutzererfahrung während der Wartungsfenster erheblich verbessert.

Q3. Sie migrieren ein standortübergreifendes Unternehmensnetzwerk von einem Active-Passive On-Premise-RADIUS-Server auf eine Active-Active Cloud-RADIUS-Plattform. Während der Pilotphase authentifizieren sich die Geräte erfolgreich an Cloud-Knoten A. Wenn der Load Balancer sie jedoch an Cloud-Knoten B weiterleitet, schlagen die EAP-TLS-Handshakes fehl. Was ist der wahrscheinlichste Konfigurationsfehler?

Hinweis: Überlegen Sie, was das Client-Gerät überprüft, wenn es einen sicheren EAP-Tunnel mit einem neuen Server aufbaut.

Musterlösung anzeigen

Das wahrscheinlichste Problem ist eine Diskrepanz beim Zertifikats-Trust. In einem Active-Active-Cluster müssen alle RADIUS-Knoten exakt dasselbe Serverzertifikat vorweisen (oder Zertifikate, die von exakt derselben vertrauenswürdigen CA-Kette ausgestellt wurden). Wenn Cloud-Knoten B ein anderes Zertifikat vorweist, dem die Client-Geräte nicht vertrauen, wird der EAP-TLS-Handshake vom Client abgelehnt, was dazu führt, dass die Authentifizierung fehlschlägt, obwohl der Server ordnungsgemäß funktioniert.

Weiterlesen in dieser Reihe

Per-Device PSK nach Anbieter: iPSK, DPSK, MPSK und PPSK im Vergleich (und WPA3-Unterstützung)

Ein umfassender Vergleich von Per-Device-PSK-Implementierungen bei Cisco Meraki, HPE Aruba, Ruckus, Juniper Mist, Extreme, Fortinet und Ubiquiti UniFi. Erfahren Sie, wie sich WPA3-SAE auf Per-Device-Key-Strategien auswirkt und wann Übergangsmodi im Vergleich zum Wechsel zu 802.1X eingesetzt werden sollten.

Leitfaden lesen →

Captive Portal Authentifizierungsmethoden im Vergleich

Dieser maßgebliche technische Leitfaden bewertet die architektonischen, betrieblichen und Compliance-bezogenen Vor- und Nachteile von fünf zentralen Captive Portal Authentifizierungsmethoden. Er bietet Netzwerkarchitekten, IT-Leitern und Marketingmanagern die quantitativen Daten und Entscheidungsrahmen, die erforderlich sind, um die Reibung beim Onboarding von Gästen mit den Anforderungen an die Datenerfassung in Unternehmensstandorten abzuwägen.

Leitfaden lesen →

Was ist MAC-Adressen-Authentifizierung? Wann man sie einsetzt und wann man sie vermeidet

Dieser maßgebliche technische Leitfaden behandelt die MAC-Adressen-Authentifizierung in Enterprise-WiFi-Umgebungen – wie die RADIUS-basierte MAC-Authentifizierung auf Layer 2 funktioniert, ihre inhärenten Sicherheitsrisiken (einschließlich MAC-Spoofing und den Auswirkungen der MAC-Randomisierung auf Betriebssystemebene) und die genauen betrieblichen Kontexte, in denen sie ein legitimes Tool zur Verwaltung von IoT- und Headless-Geräten bleibt. Er bietet praxisnahe Bereitstellungsrichtlinien für IT-Manager und Netzwerkarchitekten in den Bereichen Hotellerie, Einzelhandel, Gesundheitswesen und im öffentlichen Sektor, ergänzt durch praxisnahe Fallbeispiele, Entscheidungsmatrizen und Integrationskontexte für die Guest-WiFi- und Analytics-Plattform von Purple.

Leitfaden lesen →