Haute disponibilité du serveur RADIUS : Actif-Actif vs Actif-Passif
Un guide de référence technique incontournable pour les responsables informatiques et les architectes réseau évaluant les architectures de haute disponibilité RADIUS. Il compare les déploiements Actif-Actif et Actif-Passif, détaille les exigences de réplication de base de données et explique comment Cloud RADIUS réduit la latence de basculement pour les sites d'entreprise.
Écouter ce guide
Voir la transcription du podcast
- Synthèse
- Analyse technique approfondie : Comprendre l'architecture RADIUS
- Architecture Actif-Passif
- Architecture Active-Active
- Le défi de la réplication de base de données
- Guide d'implémentation : Cloud vs On-Premise
- Plates-formes RADIUS dans le cloud
- Considérations relatives au déploiement sur site (On-Premise)
- Bonnes pratiques pour la haute disponibilité RADIUS
- Dépannage et atténuation des risques
- ROI et impact commercial

Synthèse
Pour les réseaux d'entreprise, l'authentification est binaire : soit elle fonctionne parfaitement, soit les opérations de l'entreprise s'arrêtent complètement. Le serveur RADIUS (Remote Authentication Dial-In User Service) fait office de gardien indispensable pour les déploiements IEEE 802.1X, WPA3 entreprise et de Guest WiFi au sein des sites modernes. Contrairement aux services applicatifs qui se dégradent de manière progressive en cas de surcharge, une panne de RADIUS bloque immédiatement l'accès au réseau pour les utilisateurs, les terminaux de point de vente et les appareils opérationnels.
Ce guide de référence technique évalue les modèles architecturaux permettant de déployer une infrastructure RADIUS hautement disponible. Plus précisément, il compare les configurations Actif-Passif traditionnelles aux clusters Actif-Actif modernes. Pour les responsables informatiques, les architectes réseau et les directeurs de site gérant des environnements à haute densité tels que le commerce de détail ( Retail ), l'hôtellerie ( Hospitality ) et les stades, il est essentiel de comprendre ces stratégies de basculement (failover), les mécanismes de répartition de charge (load balancing) et les exigences de réplication de base de données.
De plus, ce guide examine comment les plateformes Cloud RADIUS simplifient la complexité de la haute disponibilité en offrant un basculement automatique et une évolutivité élastique, sans la charge opérationnelle liée à la maintenance d'une infrastructure redondante sur site. En appliquant ces meilleures pratiques neutres vis-à-vis des fournisseurs, les équipes d'ingénierie peuvent concevoir des architectures d'authentification qui éliminent les points de défaillance uniques et respectent des accords de niveau de service (SLA) de disponibilité rigoureux.
Analyse technique approfondie : Comprendre l'architecture RADIUS
Le protocole RADIUS fonctionne sur un modèle client-serveur via UDP, utilisant généralement le port 1812 pour l'authentification et le port 1813 pour l'administration (accounting), comme défini dans les RFC 2865 et RFC 2866. La nature sans état (stateless) des requêtes d'authentification UDP constitue un avantage structurel pour la conception d'une haute disponibilité. Chaque paquet Access-Request contenant toutes les informations d'identification et tous les paramètres nécessaires, n'importe quel serveur RADIUS au sein d'un cluster peut traiter n'importe quelle requête de manière autonome, sans nécessiter de synchronisation d'état complexe pour la phase d'authentification elle-même.
Architecture Actif-Passif
Dans un déploiement Actif-Passif (ou principal-secours), un seul serveur RADIUS traite l'ensemble du trafic d'authentification et d'administration entrant. Un serveur secondaire reste en ligne mais inactif, recevant les mises à jour de réplication de la base de données sans répondre activement aux équipements d'accès réseau (NAD, Network Access Devices) tels que les points d'accès, les commutateurs ou les passerelles VPN.
Lorsque le serveur principal échoue, le NAD détecte le dépassement de délai et redirige les requêtes suivantes vers le serveur secondaire. Le temps de détection du basculement dépend entièrement des temporisateurs de configuration du NAD. Un NAD standard envoie une requête RADIUS et attend un délai d'attente de paquet par défaut (souvent deux secondes). Si aucune réponse n'est reçue, il réessaye. Avec une configuration standard de trois tentatives par serveur, le NAD peut attendre jusqu'à six secondes avant de déclarer le serveur principal hors service et de basculer vers le secondaire. Dans les environnements dotés de trois serveurs configurés, cette fenêtre de basculement peut s'étendre jusqu'à dix-huit secondes. Pour un établissement du secteur de l' Hospitality très fréquenté ou un environnement Retail traitant des transactions, ce délai représente une interruption de service notable.
Architecture Active-Active
À l'inverse, une architecture Active-Active répartit simultanément la charge d'authentification sur plusieurs serveurs RADIUS opérationnels. Le trafic est acheminé vers le cluster soit via une configuration round-robin sur les NAD, soit via un équilibreur de charge dédié.

Ce modèle élimine le délai de détection de basculement inhérent aux configurations Active-Passive. Si un nœud échoue, l'équilibreur de charge (ou les NAD utilisant le round-robin) cesse simplement d'acheminer le trafic vers le serveur qui ne répond pas, généralement en une à deux secondes selon les intervalles de vérification de l'état (health-checks). Les nœuds actifs restants absorbent instantanément le trafic. De plus, les clusters Active-Active évoluent horizontalement ; l'ajout de capacité pour des événements à haute densité nécessite simplement le provisionnement de nœuds supplémentaires dans le cluster.
Le défi de la réplication de base de données
Bien que l'authentification RADIUS soit sans état (stateless), la comptabilisation (accounting) RADIUS est intrinsèquement avec état (stateful). Elle suit l'initiation de la session (Start), l'utilisation en cours (Interim-Update) et la fin de la session (Stop). Pour les établissements utilisant l'analyse WiFi Analytics ou des systèmes de facturation, ces données de comptabilisation doivent rester cohérentes sur tous les nœuds.
Associer un cluster RADIUS à une base de données répliquée (telle que MySQL ou MariaDB intégrée à FreeRADIUS) est obligatoire pour une haute disponibilité robuste. Pour les déploiements Active-Active, une réplication multi-maître synchrone — comme Galera Cluster ou MySQL NDB Cluster — est requise. La réplication synchrone garantit qu'un enregistrement de comptabilisation est validé sur tous les nœuds simultanément, évitant ainsi la perte de données en cas de défaillance d'un nœud. La réplication asynchrone traditionnelle, souvent utilisée dans les configurations Active-Passive, introduit un retard de réplication. Si le nœud principal échoue avant que le secondaire ne reçoive la mise à jour, les données de session actives sont définitivement perdues, ce qui peut enfreindre les cadres de conformité tels que PCI DSS.
Guide d'implémentation : Cloud vs On-Premise
La décision d'architecture dépasse la simple manière de regrouper les serveurs ; elle concerne également l'emplacement de ces serveurs. Pour les opérateurs multisites, le raccordement du trafic d'authentification vers un centre de données local centralisé introduit de la latence WAN et crée un point de défaillance unique au niveau de la liaison WAN.
Plates-formes RADIUS dans le cloud
Les services RADIUS dans le cloud résolvent les défis de distribution géographique en hébergeant l'infrastructure d'authentification sur plusieurs zones de disponibilité mondiales. Lorsqu'un utilisateur se connecte sur un site distant, la demande est acheminée vers le nœud de périphérie cloud le plus proche, minimisant ainsi la latence.

Les plates-formes cloud utilisent intrinsèquement des architectures Actif-Actif. Le basculement entre les zones de disponibilité est géré automatiquement par l'équilibrage de charge interne du fournisseur, masquant entièrement cette complexité aux équipes d'ingénierie du client. Ce modèle offre généralement des SLA de disponibilité de 99,99 % et élimine le besoin de gestion manuelle des certificats, d'application de correctifs au système d'exploitation et d'optimisation de la réplication de base de données. Pour les organisations déployant des solutions de Wayfinding ou des Sensors sur des campus distribués, l'authentification hébergée dans le cloud garantit l'application cohérente des politiques sans dépendances matérielles locales.
Considérations relatives au déploiement sur site (On-Premise)
Les organisations opérant dans des secteurs hautement réglementés — tels que certains environnements de Santé ou gouvernementaux — peuvent exiger des déploiements sur site en raison de mandats stricts sur la souveraineté des données. Dans ces scénarios, le déploiement d'un cluster FreeRADIUS Actif-Actif avec réplication synchrone Galera offre le plus haut niveau de résilience.
Cependant, les équipes d'ingénierie doivent tenir compte de la surcharge opérationnelle. La gestion des certificats TLS sur plusieurs nœuds, la garantie de la cohérence de la configuration et la surveillance active de l'état de la réplication de la base de données nécessitent des ressources administratives dédiées. Les équilibreurs de charge matériels doivent être spécifiquement configurés pour prendre en charge le trafic UDP avec des contrôles de santé RADIUS appropriés, car de nombreux équilibreurs de charge standard sont uniquement optimisés pour le trafic TCP HTTP/HTTPS.
Bonnes pratiques pour la haute disponibilité RADIUS
- Distribuer plutôt que dupliquer : Pour les déploiements de plus de 500 utilisateurs simultanés, privilégiez les architectures Actif-Actif aux configurations Actif-Passif afin de maximiser le débit et de minimiser la latence de basculement.
- Implémenter la réplication synchrone : Protégez les données d'authentification d'état en utilisant une réplication de base de données multi-maître synchrone (par exemple, Galera Cluster) plutôt que des modèles primaire-réplique asynchrones.
- Standardiser la confiance des certificats : Dans un cluster Actif-Actif, assurez-vous que tous les nœuds présentent un certificat de serveur identique ou des certificats issus de la même chaîne d'autorité de certification (CA). Les écarts entraîneront l'échec des liaisons EAP-TLS et PEAP lors de la rotation des nœuds.
- Ajuster les minuteries NAD : Optimisez les minuteries de tentative et d'expiration RADIUS sur vos équipements d'accès réseau (Network Access Devices). Un délai d'expiration de deux secondes avec deux tentatives offre un équilibre entre la détection rapide des pannes et la prévention des basculements prématurés lors d'une congestion mineure du réseau.
- Tester les scénarios de défaillance : Traitez les nœuds secondaires comme des systèmes de production. Simulez régulièrement des pannes de nœuds, des désynchronisations de bases de données et des coupures de liaisons WAN pour valider le bon fonctionnement des mécanismes de basculement automatique.
Dépannage et atténuation des risques
Le mode de défaillance le plus courant dans la haute disponibilité RADIUS est la dérive de configuration (configuration drift). Dans les configurations Actif-Passif, les administrateurs mettent fréquemment à jour les politiques ou renouvellent les certificats sur le nœud principal, mais négligent le nœud secondaire. Lorsqu'un basculement se produit, le nœud secondaire rejette le trafic légitime en raison d'identifiants expirés ou de politiques obsolètes.
Pour atténuer ce risque, implémentez des outils de gestion de configuration (tels qu'Ansible ou Terraform) afin de déployer les modifications de manière symétrique sur tous les nœuds. Pour la gestion des certificats, utilisez des protocoles de renouvellement automatisés (comme ACME) configurés pour distribuer simultanément le certificat mis à jour à l'échelle du cluster.
Un autre risque important est la mauvaise configuration de l'équilibreur de charge. Si un équilibreur de charge n'effectue pas de contrôles de santé au niveau de la couche applicative (en vérifiant spécifiquement la réactivité du port UDP 1812), il peut continuer à acheminer le trafic vers un nœud où le système d'exploitation fonctionne mais où le démon RADIUS s'est arrêté. Assurez-vous que les contrôles de santé valident explicitement la disponibilité du service RADIUS.
ROI et impact commercial
Le retour sur investissement d'une haute disponibilité RADIUS robuste se mesure principalement à l'atténuation des risques et à l'efficacité opérationnelle. Les interruptions d'authentification entraînent des pertes de productivité immédiates pour les employés et de graves dommages réputationnels pour les lieux accueillant du public.
En passant de déploiements manuels sur serveur unique à des architectures Actif-Actif automatisées (en particulier via Cloud RADIUS), les entreprises récupèrent de nombreuses heures d'ingénierie auparavant consacrées à la maintenance de routine. Cette efficacité opérationnelle permet aux équipes réseau de se concentrer sur des initiatives stratégiques, telles que le déploiement de Les avantages clés du SD WAN pour les entreprises modernes ou l'optimisation de la couverture haute densité, plutôt que de devoir gérer en urgence des échecs d'authentification. En fin de compte, une authentification fiable est le pilier fondamental sur lequel reposent tous les services réseau ultérieurs.
Définitions clés
Architecture Active-Active
Une conception de haute disponibilité où plusieurs serveurs RADIUS traitent les requêtes d'authentification simultanément, répartissant la charge et fournissant un basculement instantané sans délai de détection.
Essentielle pour les sites à haute densité (stades, grande distribution) où un seul serveur ne peut pas gérer les pics de demandes d'authentification.
Architecture Active-Passive
Un modèle de redondance où un serveur principal gère tout le trafic, tandis qu'un serveur secondaire reste inactif en veille jusqu'à ce que le principal tombe en panne.
Convient aux déploiements plus petits et sensibles aux coûts, mais introduit un délai de basculement de 6 à 18 secondes pendant que l'appareil d'accès réseau détecte la panne.
Réplication synchrone
Une méthode de réplication de base de données où les données sont écrites simultanément sur tous les nœuds d'un cluster avant que la transaction ne soit considérée comme terminée.
Obligatoire pour les bases de données de comptabilité RADIUS Active-Active (comme Galera Cluster) afin de prévenir la perte de données et d'assurer la conformité.
Réplication asynchrone
Une méthode de réplication de base de données où le nœud principal enregistre les données et les copie ultérieurement sur les nœuds secondaires, introduisant un léger délai (décalage).
Souvent utilisée dans les configurations Active-Passive, elle comporte le risque de perdre des enregistrements comptables récents si le nœud principal tombe en panne brusquement.
Appareil d'accès réseau (NAD)
Le composant matériel (tel qu'un point d'accès WiFi, un commutateur ou une passerelle VPN) qui demande l'authentification au serveur RADIUS au nom de l'utilisateur.
Les compteurs de tentatives et de temporisation internes du NAD dictent la rapidité avec laquelle un basculement Active-Passive se produit.
Protocole sans état (Stateless)
Un protocole de communication qui traite chaque requête comme une transaction indépendante, sans relation avec les requêtes précédentes.
L'authentification RADIUS sur UDP est sans état, ce qui permet aux répartiteurs de charge de router de manière fluide n'importe quelle requête vers n'importe quel serveur actif.
Dérive de configuration (Configuration Drift)
Le phénomène par lequel les serveurs secondaires ou de secours se désynchronisent du serveur principal au fil du temps en ce qui concerne les politiques, les mises à jour ou les certificats.
La principale cause d'échec dans les déploiements RADIUS Active-Passive lorsque le nœud secondaire est contraint de prendre le relais.
Cloud RADIUS
Un service d'authentification managé hébergé sur une infrastructure cloud distribuée mondialement, offrant une redondance Active-Active intégrée et une mise à l'échelle automatique.
Élimine la nécessité pour les équipes informatiques de concevoir, corriger et surveiller manuellement des serveurs RADIUS locaux redondants.
Exemples concrets
Un groupe hôtelier européen gère 45 établissements dans six pays. Ils exploitent actuellement des machines virtuelles FreeRADIUS indépendantes sur chaque site. L'expiration récente d'un certificat TLS sur l'un des sites a provoqué une panne totale du WiFi invité lors d'une conférence majeure. Comment devraient-ils repenser leur architecture d'authentification pour éviter les pannes localisées et réduire les frais de maintenance ?
Le groupe hôtelier devrait migrer de ses instances FreeRADIUS locales et à nœud unique vers une plateforme Cloud RADIUS centralisée utilisant une architecture Actif-Actif. En s'appuyant sur un fournisseur cloud disposant de nœuds périphériques géographiquement distribués, les demandes d'authentification de chaque établissement sont acheminées vers le nœud régional le plus proche, minimisant ainsi la latence. La gestion centralisée des politiques permet à l'équipe informatique de définir les règles d'authentification une seule fois et de les appliquer à l'échelle mondiale. Le fournisseur cloud gère automatiquement la rotation des certificats TLS, les correctifs du système d'exploitation et la réplication de la base de données.
Un stade de sport national se prépare pour un événement de 60 000 participants. Leur configuration RADIUS actuelle est de type Actif-Passif. Lors des tests de charge, le serveur principal est devenu saturé en traitant 8 000 demandes d'authentification par minute à l'ouverture des portes, entraînant d'importants retards de connexion, tandis que le serveur secondaire est resté totalement inactif. Comment peuvent-ils optimiser ce déploiement ?
L'équipe d'ingénierie réseau doit convertir le déploiement d'Actif-Passif à Actif-Actif. Premièrement, elle doit reconfigurer les équipements d'accès réseau (NAD) du stade pour utiliser un équilibrage de charge de type round-robin entre les deux serveurs RADIUS, doublant ainsi instantanément leur débit d'authentification. Deuxièmement, elle doit provisionner un troisième nœud RADIUS pour fournir la marge de manœuvre nécessaire lors des pics de charge. Enfin, pour garantir la cohérence des données de comptabilité (accounting) sur les trois nœuds actifs, elle doit mettre en œuvre une solution de réplication de base de données multi-maître synchrone, telle que Galera Cluster.
Questions d'entraînement
Q1. Votre client du secteur de la vente au détail a besoin d'une solution RADIUS hautement disponible pour ses terminaux de point de vente. Il a des exigences de conformité PCI DSS strictes stipulant qu'absolument aucune donnée de session de comptabilité ne peut être perdue lors d'un basculement de serveur. Quelle stratégie de réplication de base de données devez-vous implémenter pour le backend RADIUS ?
Conseil : Considérez la différence entre des données écrites simultanément et des données copiées après coup.
Voir la réponse type
Vous devez implémenter la réplication synchrone (telle qu'un cluster Galera ou un cluster MySQL NDB). La réplication synchrone garantit que le rapport de comptabilité (accounting) est validé simultanément sur tous les nœuds avant de confirmer la transaction. Si vous utilisiez une réplication asynchrone, une défaillance de nœud pourrait entraîner la perte de transactions récentes qui n'avaient pas encore été copiées sur la base de données secondaire, ce qui violerait l'exigence de conformité stricte.
Q2. Un réseau de campus universitaire utilise une configuration RADIUS Active-Passive. Les étudiants se plaignent du fait que lorsque le serveur principal est en maintenance, il faut près de 20 secondes pour que leurs ordinateurs portables se connectent au WiFi. Les points d'accès sont configurés avec un délai d'attente RADIUS de 3 secondes et 5 tentatives. Comment pouvez-vous réduire le délai de basculement sans modifier l'architecture du serveur ?
Conseil : Calculez le temps d'attente maximum basé sur les temporisateurs du NAD avant qu'il ne tente de se connecter au serveur secondaire.
Voir la réponse type
Vous devez ajuster les temporisateurs sur les dispositifs d'accès réseau (points d'accès). Actuellement, le point d'accès attend 3 secondes et réessaye 5 fois, ce qui entraîne un délai de 18 secondes (3 secondes × 6 tentatives au total) avant de basculer vers le serveur passif. En réduisant la configuration à un délai d'attente de 2 secondes et 2 tentatives, le temps de détection du basculement tombe à 6 secondes, ce qui améliore considérablement l'expérience utilisateur pendant les fenêtres de maintenance.
Q3. Vous migrez un réseau d'entreprise multi-sites d'un serveur RADIUS sur site Active-Passive vers une plateforme Cloud RADIUS Active-Active. Pendant la phase pilote, les appareils s'authentifient avec succès auprès du nœud cloud A, mais lorsque l'équilibreur de charge les redirige vers le nœud cloud B, les liaisons EAP-TLS échouent. Quelle est l'erreur de configuration la plus probable ?
Conseil : Considérez ce que le périphérique client vérifie lors de l'établissement d'un tunnel EAP sécurisé avec un nouveau serveur.
Voir la réponse type
Le problème le plus probable est une non-concordance de confiance des certificats. Dans un cluster Active-Active, tous les nœuds RADIUS doivent présenter exactement le même certificat de serveur (ou des certificats émis par la même chaîne d'autorité de certification de confiance). Si le nœud cloud B présente un certificat différent auquel les appareils clients ne font pas confiance, la liaison EAP-TLS sera rejetée par le client, ce qui entraînera l'échec de l'authentification alors même que le serveur fonctionne correctement.
Continuer la lecture de cette série
Per-Device PSK par constructeur : iPSK, DPSK, MPSK et PPSK comparés (et support de WPA3)
Une comparaison complète des implémentations de per-device PSK chez Cisco Meraki, HPE Aruba, Ruckus, Juniper Mist, Extreme, Fortinet et Ubiquiti UniFi. Découvrez comment le WPA3-SAE impacte les stratégies de clés par appareil et quand déployer des modes de transition par rapport à une migration vers le 802.1X.
Comparatif des méthodes d'authentification par Captive Portal
Ce guide de référence technique et d'autorité évalue les compromis architecturaux, opérationnels et de conformité des cinq principales méthodes d'authentification par captive portal. Il fournit aux architectes réseau, directeurs informatiques et responsables marketing les données quantitatives et les cadres de décision nécessaires pour équilibrer la friction d'intégration des invités avec les exigences de collecte de données au sein des sites d'entreprise.
Qu'est-ce que l'authentification par adresse MAC ? Quand l'utiliser et quand l'éviter
Ce guide de référence technique faisant autorité couvre l'authentification par adresse MAC dans les environnements WiFi d'entreprise — comment fonctionne l'authentification MAC basée sur RADIUS au niveau de la couche 2, ses vulnérabilités de sécurité inhérentes (y compris le spoofing MAC et l'impact de la randomisation MAC au niveau du système d'exploitation), et les contextes opérationnels précis où elle reste un outil valable pour gérer l'IoT et les appareils sans écran (headless). Il fournit des conseils de déploiement exploitables pour les responsables informatiques et les architectes réseau dans les secteurs de l'hôtellerie, du commerce de détail, de la santé et des espaces publics, avec des exemples concrets, des cadres de décision et le contexte d'intégration pour le WiFi invité et la plateforme d'analyse de Purple.