Alta disponibilidad del servidor RADIUS: Activo-Activo frente a Activo-Pasivo
Una guía de referencia técnica definitiva para responsables de TI y arquitectos de red que evalúan arquitecturas de alta disponibilidad RADIUS. Compara despliegues Activo-Activo y Activo-Pasivo, detalla los requisitos de replicación de bases de datos y explica cómo Cloud RADIUS mitiga la latencia de conmutación por error en recintos corporativos.
🎧 Escuchar esta guía
Ver transcripción
- Resumen ejecutivo
- Inmersión técnica: Comprensión de la arquitectura RADIUS
- Arquitectura Activo-Pasivo
- Arquitectura Activo-Activo
- El desafío de la replicación de bases de datos
- Guía de implementación: Cloud frente a local
- Plataformas Cloud RADIUSplataformas
- Consideraciones de implementación on-premise
- Mejores prácticas para la alta disponibilidad de RADIUS
- Resolución de problemas y mitigación de riesgos
- ROI e impacto empresarial

Resumen ejecutivo
Para las redes corporativas, la autenticación es binaria: o funciona a la perfección, o las operaciones comerciales se detienen por completo. RADIUS (Remote Authentication Dial-In User Service) actúa como el guardián crítico para los despliegues de IEEE 802.1X, WPA3 enterprise y Guest WiFi en recintos modernos. A diferencia de los servicios de aplicaciones que se degradan progresivamente bajo carga, un fallo de RADIUS bloquea inmediatamente el acceso a la red de usuarios, terminales de punto de venta y dispositivos operativos.
Esta guía de referencia técnica evalúa los modelos arquitectónicos para desplegar infraestructuras RADIUS de alta disponibilidad. En concreto, contrasta las configuraciones tradicionales Activo-Pasivo con los modernos clústeres Activo-Activo. Para responsables de TI, arquitectos de red y directores de operaciones de recintos que gestionan entornos de alta densidad como Retail , Hospitality y estadios, es esencial comprender estas estrategias de conmutación por error, la mecánica del equilibrado de carga y los requisitos de replicación de bases de datos.
Además, esta guía examina cómo las plataformas Cloud RADIUS abstraen la complejidad de la alta disponibilidad, proporcionando conmutación por error automática y escalabilidad elástica sin la carga operativa de mantener una infraestructura local redundante. Al aplicar estas mejores prácticas independientes del proveedor, los equipos de ingeniería pueden diseñar arquitecturas de autenticación que eliminen los puntos únicos de fallo y cumplan con los estrictos Acuerdos de Nivel de Servicio (SLA) de tiempo de actividad.
Inmersión técnica: Comprensión de la arquitectura RADIUS
RADIUS funciona como un protocolo cliente-servidor sobre UDP, utilizando normalmente el puerto 1812 para la autenticación y el puerto 1813 para la contabilidad, según definen los RFC 2865 y RFC 2866. La naturaleza sin estado de las solicitudes de autenticación UDP es una ventaja estructural para el diseño de alta disponibilidad. Dado que cada paquete Access-Request contiene todas las credenciales y parámetros necesarios, cualquier servidor RADIUS dentro de un clúster puede procesar cualquier solicitud de forma independiente, sin requerir una sincronización de estado compleja para la fase de autenticación en sí.
Arquitectura Activo-Pasivo
En un despliegue Activo-Pasivo (o primario-reserva), un único servidor RADIUS procesa todo el tráfico entrante de autenticación y contabilidad. Un servidor secundario permanece en línea pero inactivo, recibiendo actualizaciones de replicación de la base de datos pero sin responder activamente a los Dispositivos de Acceso a la Red (NAD), como puntos de acceso, switches o puertas de enlace VPN.
Cuando el servidor primario falla, el NAD detecta el tiempo de espera agotado y redirige las solicitudes posteriores al servidor secundario. El tiempo de detección de la conmutación por error depende totalmente de los temporizadores de configuración del NAD. Un NAD típico envía una solicitud RADIUS y espera un tiempo de espera de paquete predeterminado (a menudo dos segundos). Si no recibe respuesta, lo reintenta. Con una configuración estándar de tres intentos por servidor, el NAD puede esperar hasta seis segundos antes de declarar el servidor primario como inactivo y conmutar al secundario. En entornos con tres servidores configurados, esta ventana de conmutación por error puede extenderse hasta los dieciocho segundos. Para un recinto de Hospitality concurrido o un entorno de Retail que procesa transacciones, este retraso representa una interrupción notable del servicio.
Arquitectura Activo-Activo
Por el contrario, una arquitectura Activo-Activo distribuye la carga de autenticación entre varios servidores RADIUS operativos simultáneamente. El tráfico se encamina al clúster mediante una configuración round-robin en los NAD o a través de un equilibrador de carga dedicado.

Este modelo elimina el retraso en la detección de la conmutación por error inherente a las configuraciones Activo-Pasivo. Si un nodo falla, el equilibrador de carga (o los NAD que utilizan round-robin) simplemente deja de dirigir el tráfico al servidor que no responde, normalmente en un plazo de uno a dos segundos basándose en los intervalos de comprobación de estado (health-check). Los nodos activos restantes absorben el tráfico al instante. Además, los clústeres Activo-Activo se escalan horizontalmente; añadir capacidad para eventos de alta densidad solo requiere aprovisionar nodos adicionales al clúster.
El desafío de la replicación de bases de datos
Aunque la autenticación RADIUS no tiene estado, la contabilidad RADIUS es intrínsecamente con estado. Realiza el seguimiento del inicio de la sesión (Start), el uso continuo (Interim-Update) y la finalización (Stop). Para los recintos que utilizan WiFi Analytics o sistemas de facturación, estos datos de contabilidad deben ser coherentes en todos los nodos.
Respaldar un clúster RADIUS con una base de datos replicada (como MySQL o MariaDB integrada con FreeRADIUS) es obligatorio para una alta disponibilidad robusta. Para despliegues Activo-Activo, se requiere una replicación síncrona multimaestro, como Galera Cluster o MySQL NDB Cluster. La replicación síncrona garantiza que un registro de contabilidad se confirme en todos los nodos simultáneamente, evitando la pérdida de datos si un nodo falla. La replicación asíncrona tradicional, utilizada a menudo en configuraciones Activo-Pasivo, introduce un retardo de replicación. Si el nodo primario falla antes de que el secundario reciba la actualización, los datos de la sesión activa se pierden permanentemente, lo que puede violar marcos de cumplimiento como PCI DSS.
Guía de implementación: Cloud frente a local
La decisión arquitectónica va más allá de cómo agrupar los servidores; implica dónde residen esos servidores. Para los operadores con múltiples sedes, el retorno del tráfico de autenticación a un centro de datos local centralizado introduce latencia WAN y crea un punto único de fallo en el enlace WAN.
Plataformas Cloud RADIUSplataformas
Los servicios de Cloud RADIUS resuelven los retos de distribución geográfica al alojar la infraestructura de autenticación en múltiples zonas de disponibilidad globales. Cuando un usuario se conecta en una sucursal, la solicitud se enruta al nodo de borde en la nube más cercano, minimizando la latencia.

Las plataformas en la nube utilizan intrínsecamente arquitecturas Activo-Activo. La conmutación por error (failover) entre las zonas de disponibilidad es gestionada automáticamente por el equilibrio de carga interno del proveedor, abstrayendo por completo la complejidad para el equipo de ingeniería del cliente. Este modelo suele ofrecer SLAs de tiempo de actividad del 99,99 % y elimina la necesidad de la gestión manual de certificados, el parcheo del sistema operativo y el ajuste de la replicación de la base de datos. Para las organizaciones que implementan Wayfinding o Sensors en campus distribuidos, la autenticación alojada en la nube garantiza una aplicación de políticas coherente sin dependencias de hardware localizadas.
Consideraciones de implementación on-premise
Las organizaciones que operan en sectores altamente regulados —como entornos específicos de Sanidad o gubernamentales— pueden requerir implementaciones on-premise debido a los estrictos mandatos de soberanía de datos. En estos escenarios, implementar un clúster FreeRADIUS Activo-Activo con replicación síncrona de Galera proporciona el nivel más alto de resiliencia.
Sin embargo, los equipos de ingeniería deben tener en cuenta la carga operativa. La gestión de certificados TLS en múltiples nodos, la garantía de la coherencia de la configuración y la supervisión activa del estado de la replicación de la base de datos requieren recursos administrativos dedicados. Los equilibradores de carga de hardware deben configurarse específicamente para admitir el tráfico UDP con las comprobaciones de estado de RADIUS adecuadas, ya que muchos equilibradores de carga estándar están optimizados únicamente para el tráfico TCP HTTP/HTTPS.
Mejores prácticas para la alta disponibilidad de RADIUS
- Distribuir en lugar de duplicar: Para implementaciones que superen los 500 usuarios simultáneos, priorice las arquitecturas Activo-Activo sobre las configuraciones Activo-Pasivo para maximizar el rendimiento y minimizar la latencia de la conmutación por error.
- Implementar replicación síncrona: Proteja los datos de contabilidad con estado utilizando la replicación de base de datos multi-maestro síncrona (por ejemplo, Galera Cluster) en lugar de modelos de réplica primaria asíncrona.
- Estandarizar la confianza de los certificados: En un clúster Activo-Activo, asegúrese de que todos los nodos presenten el mismo certificado de servidor o certificados de la misma cadena de Autoridad de Certificación (CA). Las discrepancias harán que los protocolos de enlace EAP-TLS y PEAP fallen durante la rotación de nodos.
- Ajustar los temporizadores NAD: Optimice los temporizadores de reintento y tiempo de espera de RADIUS en sus dispositivos de acceso a la red (NAD). Un tiempo de espera de dos segundos con dos reintentos proporciona un equilibrio entre la detección rápida de fallos y la prevención de conmutaciones por error prematuras durante una congestión menor de la red.
- Probar escenarios de fallo: Trate los nodos secundarios como sistemas de producción. Simule regularmente fallos de nodos, desincronización de bases de datos y caídas de enlaces WAN para validar que los mecanismos de conmutación por error automatizados funcionan según lo diseñado.
Resolución de problemas y mitigación de riesgos
El modo de fallo más frecuente en la alta disponibilidad de RADIUS es la deriva de configuración (configuration drift). En las configuraciones Activo-Pasivo, los administradores actualizan con frecuencia las políticas o renuevan los certificados en el nodo primario, pero descuidan el secundario. Cuando ocurre un evento de conmutación por error, el nodo secundario rechaza el tráfico legítimo debido a credenciales caducadas o políticas desactualizadas.
Para mitigar este riesgo, implemente herramientas de gestión de configuración (como Ansible o Terraform) para desplegar los cambios de forma simétrica en todos los nodos. Para la gestión de certificados, utilice protocolos de renovación automatizados (como ACME) configurados para distribuir el certificado actualizado en todo el clúster simultáneamente.
Otro riesgo significativo es la configuración incorrecta del equilibrador de carga. Si un equilibrador de carga no realiza comprobaciones de estado en la capa de aplicación (específicamente verificando la capacidad de respuesta del puerto UDP 1812), puede continuar enrutando el tráfico a un nodo donde el sistema operativo está funcionando pero el demonio RADIUS se ha bloqueado. Asegúrese de que las comprobaciones de estado validen explícitamente la disponibilidad del servicio RADIUS.
ROI e impacto empresarial
El retorno de la inversión para una alta disponibilidad de RADIUS sólida se mide principalmente a través de la mitigación de riesgos y la eficiencia operativa. Las interrupciones de autenticación provocan pérdidas inmediatas de productividad para los empleados y graves daños a la reputación de los lugares abiertos al público.
Al pasar de implementaciones manuales de un solo servidor a arquitecturas automatizadas Activo-Activo (especialmente a través de Cloud RADIUS), las organizaciones recuperan importantes horas de ingeniería dedicadas anteriormente al mantenimiento rutinario. Esta eficiencia operativa permite a los equipos de red centrarse en iniciativas estratégicas, como la implementación de Los beneficios principales de SD WAN para las empresas modernas o la optimización de la cobertura de alta densidad, en lugar de dedicarse a apagar fuegos por fallos de autenticación. En última instancia, una autenticación fiable es la capa fundamental de la que dependen todos los servicios de red posteriores.
Términos clave y definiciones
Active-Active Architecture
A high availability design where multiple RADIUS servers process authentication requests simultaneously, distributing the load and providing instant failover without detection delays.
Essential for high-density venues (stadiums, large retail) where a single server cannot handle peak authentication surges.
Active-Passive Architecture
A redundancy model where a primary server handles all traffic, and a secondary server remains idle on standby until the primary fails.
Suitable for smaller, cost-sensitive deployments, but introduces a 6-18 second failover delay while the network access device detects the failure.
Synchronous Replication
A database replication method where data is written to all nodes in a cluster simultaneously before the transaction is considered complete.
Mandatory for Active-Active RADIUS accounting databases (like Galera Cluster) to prevent data loss and ensure compliance.
Asynchronous Replication
A database replication method where the primary node records the data and later copies it to secondary nodes, introducing a slight delay (lag).
Often used in Active-Passive setups but carries the risk of losing recent accounting records if the primary node fails abruptly.
Network Access Device (NAD)
The hardware component (such as a WiFi access point, switch, or VPN gateway) that requests authentication from the RADIUS server on behalf of the user.
The NAD's internal retry and timeout timers dictate how quickly an Active-Passive failover occurs.
Stateless Protocol
A communications protocol that treats each request as an independent transaction, unrelated to any previous request.
RADIUS authentication over UDP is stateless, allowing load balancers to route any request to any active server seamlessly.
Configuration Drift
The phenomenon where secondary or backup servers become out of sync with the primary server regarding policies, updates, or certificates over time.
The leading cause of failure in Active-Passive RADIUS deployments when the secondary node is forced to take over.
Cloud RADIUS
A managed authentication service hosted across globally distributed cloud infrastructure, providing built-in Active-Active redundancy and automatic scaling.
Replaces the need for IT teams to manually build, patch, and monitor redundant on-premise RADIUS servers.
Casos de éxito
A European hotel group manages 45 properties across six countries. They currently run independent FreeRADIUS virtual machines at each property. A recent expired TLS certificate at one location caused a complete guest WiFi outage during a major conference. How should they redesign their authentication architecture to prevent localized outages and reduce maintenance overhead?
The hotel group should migrate from localized, single-node FreeRADIUS instances to a centralized Cloud RADIUS platform utilizing an Active-Active architecture. By leveraging a cloud provider with geographically distributed edge nodes, authentication requests from each property are routed to the nearest regional node, minimizing latency. Centralized policy management allows the IT team to define authentication rules once and apply them globally. The cloud provider automatically handles TLS certificate rotation, operating system patching, and database replication.
A national sports stadium is preparing for a 60,000-attendee event. Their current RADIUS setup is an Active-Passive configuration. During load testing, the primary server became saturated processing 8,000 authentication requests per minute when the gates opened, causing severe connection delays, while the secondary server remained completely idle. How can they optimize this deployment?
The network engineering team must convert the deployment from Active-Passive to Active-Active. First, they should reconfigure the stadium's Network Access Devices (NADs) to utilize round-robin load balancing across both RADIUS servers, instantly doubling their authentication throughput. Second, they should provision a third RADIUS node to provide necessary headroom for peak surges. Finally, to ensure accounting data remains consistent across all three active nodes, they must implement a synchronous multi-master database replication solution, such as Galera Cluster.
Análisis de escenarios
Q1. Your enterprise retail client requires a highly available RADIUS solution for their point-of-sale terminals. They have strict PCI DSS compliance requirements dictating that absolutely no accounting session data can be lost during a server failover. Which database replication strategy must you implement for the RADIUS backend?
💡 Sugerencia:Consider the difference between data being written simultaneously versus data being copied after the fact.
Mostrar enfoque recomendado
You must implement Synchronous Replication (such as a Galera Cluster or MySQL NDB Cluster). Synchronous replication ensures that the accounting record is committed to all nodes simultaneously before acknowledging the transaction. If you used Asynchronous replication, a node failure could result in the loss of recent transactions that had not yet been copied to the secondary database, violating the strict compliance requirement.
Q2. A university campus network uses an Active-Passive RADIUS setup. Students complain that when the primary server undergoes maintenance, it takes nearly 20 seconds for their laptops to connect to the WiFi. The access points are configured with a 3-second RADIUS timeout and 5 retries. How can you reduce the failover delay without changing the server architecture?
💡 Sugerencia:Calculate the maximum wait time based on the NAD timers before it attempts the secondary server.
Mostrar enfoque recomendado
You should tune the timers on the Network Access Devices (access points). Currently, the AP waits 3 seconds and retries 5 times, resulting in an 18-second delay (3 seconds × 6 total attempts) before failing over to the passive server. By reducing the configuration to a 2-second timeout and 2 retries, the failover detection time drops to 6 seconds, significantly improving the user experience during maintenance windows.
Q3. You are migrating a multi-site corporate network from an Active-Passive on-premise RADIUS server to an Active-Active Cloud RADIUS platform. During the pilot phase, devices successfully authenticate against Cloud Node A, but when the load balancer routes them to Cloud Node B, the EAP-TLS handshakes fail. What is the most likely configuration error?
💡 Sugerencia:Consider what the client device verifies when establishing a secure EAP tunnel with a new server.
Mostrar enfoque recomendado
The most likely issue is a Certificate Trust mismatch. In an Active-Active cluster, all RADIUS nodes must present the exact same server certificate (or certificates issued by the exact same trusted CA chain). If Cloud Node B is presenting a different certificate that the client devices do not trust, the EAP-TLS handshake will be rejected by the client, causing authentication to fail despite the server functioning correctly.
Conclusiones clave
- ✓RADIUS high availability is critical because authentication failures immediately block all network access for users and devices.
- ✓Active-Passive setups are simpler but introduce a 6-18 second failover delay dictated by the Network Access Device's retry timers.
- ✓Active-Active architectures process requests simultaneously, providing instant failover and horizontal scalability for high-density environments.
- ✓While RADIUS authentication is stateless, accounting is stateful and requires synchronous database replication (like Galera) to prevent data loss.
- ✓Cloud RADIUS platforms abstract HA complexity by providing globally distributed, automatically scaling Active-Active infrastructure.
- ✓Configuration drift and mismatched TLS certificates are the most common causes of failure during RADIUS failover events.



