RADIUS Server High Availability: Active-Active vs Active-Passive
Una guía de referencia técnica definitiva para gerentes de TI y arquitectos de red que evalúan arquitecturas de alta disponibilidad RADIUS. Contrasta implementaciones Active-Active y Active-Passive, detalla los requisitos de replicación de bases de datos y explica cómo Cloud RADIUS mitiga la latencia de failover para recintos empresariales.
Escucha esta guía
Ver transcripción del podcast
- Resumen Ejecutivo
- Análisis Técnico Profundo: Comprensión de la Arquitectura RADIUS
- Arquitectura Activo-Pasivo
- Arquitectura Activo-Activo
- El desafío de la replicación de bases de datos
- Guía de implementación: Nube frente a local (On-Premise)
- Cloud RADIUS Platforms
- On-Premise Deployment Considerations
- Best Practices for RADIUS High Availability
- Resolución de problemas y mitigación de riesgos
- ROI e impacto empresarial

Resumen Ejecutivo
Para las redes empresariales, la autenticación es binaria: o funciona a la perfección, o las operaciones comerciales se detienen por completo. RADIUS (Remote Authentication Dial-In User Service) actúa como el guardián crítico para las implementaciones de IEEE 802.1X, WPA3 enterprise y Guest WiFi en los recintos modernos. A diferencia de los servicios de aplicaciones que se degradan gradualmente bajo carga, una falla de RADIUS bloquea inmediatamente el acceso a la red de los usuarios, terminales de punto de venta y dispositivos operativos.
Esta guía de referencia técnica evalúa los modelos arquitectónicos para implementar una infraestructura RADIUS de alta disponibilidad. Específicamente, contrasta las configuraciones tradicionales Activo-Pasivo con los clústeres modernos Activo-Activo. Para los gerentes de TI, arquitectos de redes y directores de operaciones de recintos que gestionan entornos de alta densidad como Retail , Hospitality y estadios, comprender estas estrategias de failover, la mecánica de balanceo de carga y los requisitos de replicación de bases de datos es esencial.
Además, esta guía examina cómo las plataformas Cloud RADIUS abstraen la complejidad de la alta disponibilidad, proporcionando failover automático y escalabilidad elástica sin la carga operativa de mantener una infraestructura redundante en las instalaciones. Al aplicar estas mejores prácticas neutrales del proveedor, los equipos de ingeniería pueden diseñar arquitecturas de autenticación que eliminen los puntos únicos de falla y cumplan con los estrictos Acuerdos de Nivel de Servicio (SLAs) de tiempo de actividad.
Análisis Técnico Profundo: Comprensión de la Arquitectura RADIUS
RADIUS opera como un protocolo cliente-servidor sobre UDP, utilizando típicamente el puerto 1812 para la autenticación y el puerto 1813 para la contabilidad, como se define en RFC 2865 y RFC 2866. La naturaleza sin estado de las solicitudes de autenticación UDP es una ventaja estructural para el diseño de alta disponibilidad. Debido a que cada paquete Access-Request contiene todas las credenciales y parámetros necesarios, cualquier servidor RADIUS dentro de un clúster puede procesar cualquier solicitud de forma independiente, sin requerir una sincronización de estado compleja para la fase de autenticación en sí.
Arquitectura Activo-Pasivo
En una implementación Activo-Pasivo (o primario-secundario), un único servidor RADIUS procesa todo el tráfico entrante de autenticación y contabilidad. Un servidor secundario permanece en línea pero inactivo, recibiendo actualizaciones de replicación de la base de datos pero sin responder activamente a los Dispositivos de Acceso a la Red (NADs), como puntos de acceso, switches o gateways VPN.
Cuando el servidor principal falla, el NAD detecta el tiempo de espera agotado y redirige las solicitudes posteriores al servidor secundario. El tiempo de detección de conmutación por error depende completamente de los temporizadores de configuración del NAD. Un NAD típico envía una solicitud RADIUS y espera un tiempo de espera de paquete predeterminado (a menudo dos segundos). Si no recibe respuesta, lo reintenta. Con una configuración estándar de tres intentos por servidor, el NAD puede esperar hasta seis segundos antes de declarar inactivo al servidor principal y realizar la conmutación por error al secundario. En entornos con tres servidores configurados, esta ventana de conmutación por error puede extenderse hasta dieciocho segundos. Para un lugar de Hospitality concurrido o un entorno de Retail que procesa transacciones, este retraso representa una interrupción notable del servicio.
Arquitectura Activo-Activo
Por el contrario, una arquitectura Activo-Activo distribuye la carga de autenticación a través de múltiples servidores RADIUS operativos de forma simultánea. El tráfico se enruta al clúster ya sea mediante una configuración de tipo round-robin en los NAD o a través de un balanceador de carga dedicado.

Este modelo elimina el retraso en la detección de conmutación por error inherente a las configuraciones Activo-Pasivo. Si un nodo falla, el balanceador de carga (o los NAD que utilizan round-robin) simplemente deja de enrutar tráfico al servidor que no responde, normalmente en un plazo de uno a dos segundos según los intervalos de verificación de estado. Los nodos activos restantes absorben el tráfico al instante. Además, los clústeres Activo-Activo se escalan horizontalmente; agregar capacidad para eventos de alta densidad simplemente requiere aprovisionar nodos adicionales al clúster.
El desafío de la replicación de bases de datos
Aunque la autenticación RADIUS no tiene estado (stateless), el registro de conexiones (accounting) de RADIUS es inherentemente con estado (stateful). Realiza el seguimiento del inicio de la sesión (Start), el uso continuo (Interim-Update) y la finalización (Stop). Para los establecimientos que utilizan WiFi Analytics o sistemas de facturación, estos datos de registro de conexiones deben mantener la coherencia en todos los nodos.
Respaldar un clúster RADIUS con una base de datos replicada (como MySQL o MariaDB integrada con FreeRADIUS) es obligatorio para una alta disponibilidad sólida. Para implementaciones Activo-Activo, se requiere una replicación síncrona de múltiples maestros, como Galera Cluster o MySQL NDB Cluster. La replicación síncrona garantiza que un registro de conexión se confirme en todos los nodos simultáneamente, lo que evita la pérdida de datos si un nodo falla. La replicación asíncrona tradicional, que se utiliza a menudo en configuraciones Activo-Pasivo, introduce un retraso de replicación. Si el nodo principal falla antes de que el secundario reciba la actualización, los datos de la sesión activa se pierden de forma permanente, lo que puede violar los marcos de cumplimiento como PCI DSS.
Guía de implementación: Nube frente a local (On-Premise)
The architectural decision extends beyond how to cluster servers; it involves where those servers reside. For multi-site operators, backhauling authentication traffic to a centralized on-premise data center introduces WAN latency and creates a single point of failure at the WAN link.
Cloud RADIUS Platforms
Cloud RADIUS services resolve geographic distribution challenges by hosting authentication infrastructure across multiple global availability zones. When a user connects at a branch location, the request is routed to the nearest cloud edge node, minimizing latency.

La arquitectura de nube utiliza de forma inherente arquitecturas Activo-Activo. El failover entre zonas de disponibilidad se gestiona automáticamente mediante el balanceo de carga interno del proveedor, abstrayendo por completo la complejidad para el equipo de ingeniería del cliente. Este modelo suele ofrecer SLAs de tiempo de actividad del 99.99% y elimina la necesidad de gestionar certificados manualmente, aplicar parches al sistema operativo y ajustar la replicación de bases de datos. Para las organizaciones que implementan Wayfinding o Sensors en campus distribuidos, la autenticación alojada en la nube garantiza una aplicación uniforme de las políticas sin dependencias de hardware local.
On-Premise Deployment Considerations
Las organizaciones que operan en sectores altamente regulados —como entornos gubernamentales o de Healthcare específicos— pueden requerir implementaciones locales debido a estrictos mandatos de soberanía de datos. En estos escenarios, implementar un clúster FreeRADIUS Activo-Activo con replicación síncrona de Galera proporciona el mayor nivel de resiliencia.
Sin embargo, los equipos de ingeniería deben tener en cuenta la sobrecarga operativa. La gestión de certificados TLS en múltiples nodos, la garantía de consistencia en la configuración y el monitoreo activo de la salud de la replicación de la base de datos requieren recursos administrativos dedicados. Los balanceadores de carga de hardware deben configurarse específicamente para admitir tráfico UDP con las comprobaciones de salud de RADIUS adecuadas, ya que muchos balanceadores de carga estándar están optimizados únicamente para tráfico TCP HTTP/HTTPS.
Best Practices for RADIUS High Availability
- Distribuir en lugar de duplicar: Para implementaciones que superen los 500 usuarios concurrentes, priorice las arquitecturas Activo-Activo sobre las configuraciones Activo-Pasivo para maximizar el rendimiento y minimizar la latencia de failover.
- Implementar replicación síncrona: Proteja los datos de contabilidad con estado utilizando una replicación de base de datos multi-maestro síncrona (por ejemplo, Galera Cluster) en lugar de modelos primario-réplica asíncronos.
- Estandarizar la confianza de certificados: En un clúster Activo-Activo, asegúrese de que todos los nodos presenten el mismo certificado de servidor o certificados de la misma cadena de Autoridad de Certificación (CA). Las discrepancias provocarán que los saludos EAP-TLS y PEAP fallen durante la rotación de nodos.
- Ajustar los temporizadores de NAD: Optimice los temporizadores de reintento y de tiempo de espera de RADIUS en sus Network Access Devices. Un tiempo de espera de dos segundos con dos reintentos proporciona un equilibrio entre la detección rápida de fallas y la prevención de fallas prematuras durante una congestión menor de la red.
- Probar escenarios de falla: Trate los nodos secundarios como sistemas de producción. Simule regularmente fallas de nodos, desincronización de bases de datos y caídas de enlaces WAN para validar que los mecanismos de failover automatizados funcionen según lo diseñado.
Resolución de problemas y mitigación de riesgos
El modo de falla más común en la alta disponibilidad de RADIUS es la discrepancia de configuración. En las configuraciones Activo-Pasivo, los administradores suelen actualizar las políticas o renovar los certificados en el nodo primario, pero descuidan el secundario. Cuando ocurre un evento de failover, el nodo secundario rechaza el tráfico legítimo debido a credenciales vencidas o políticas desactualizadas.
Para mitigar este riesgo, implemente herramientas de gestión de configuración (como Ansible o Terraform) para implementar cambios de manera simétrica en todos los nodos. Para la gestión de certificados, utilice protocolos de renovación automatizados (como ACME) configurados para distribuir el certificado actualizado en todo el clúster de forma simultánea.
Otro riesgo importante es la configuración incorrecta del balanceador de carga. Si un balanceador de carga no realiza verificaciones de estado a nivel de aplicación (específicamente verificando la capacidad de respuesta del puerto UDP 1812), puede continuar enrutando el tráfico a un nodo donde el sistema operativo está funcionando pero el demonio RADIUS se ha caído. Asegúrese de que las verificaciones de estado validen explícitamente la disponibilidad del servicio RADIUS.
ROI e impacto empresarial
El retorno de la inversión para una alta disponibilidad sólida de RADIUS se mide principalmente a través de la mitigación de riesgos y la eficiencia operativa. Las interrupciones de autenticación provocan pérdidas de productividad inmediatas para los empleados y graves daños a la reputación de los establecimientos abiertos al público.
Al realizar la transición de implementaciones manuales de un solo servidor a arquitecturas automatizadas Activo-Activo (particularmente a través de Cloud RADIUS), las organizaciones recuperan valiosas horas de ingeniería que antes se dedicaban al mantenimiento de rutina. Esta eficiencia operativa permite a los equipos de red centrarse en iniciativas estratégicas, como implementar The Core SD WAN Benefits for Modern Businesses o la optimización de la cobertura de alta densidad, en lugar de apagar fuegos por fallas de autenticación. En última instancia, una autenticación confiable es la capa fundamental sobre la cual dependen todos los servicios de red posteriores.
Definiciones clave
Arquitectura Activo-Activo
Un diseño de alta disponibilidad donde múltiples servidores RADIUS procesan solicitudes de autenticación de forma simultánea, distribuyendo la carga y proporcionando una conmutación por error instantánea sin retrasos de detección.
Esencial para recintos de alta densidad (estadios, grandes tiendas de retail) donde un solo servidor no puede manejar los picos de sobrecarga de autenticación.
Arquitectura Activo-Pasivo
Un modelo de redundancia donde un servidor primario maneja todo el tráfico y un servidor secundario permanece inactivo en espera hasta que el primario falla.
Adecuada para implementaciones más pequeñas y sensibles a los costos, pero introduce un retraso de conmutación por error de 6 a 18 segundos mientras el dispositivo de acceso a la red detecta la falla.
Replicación Síncrona
Un método de replicación de bases de datos donde los datos se escriben en todos los nodos de un clúster simultáneamente antes de que la transacción se considere completa.
Obligatoria para bases de datos de contabilidad RADIUS Activo-Activo (como Galera Cluster) para evitar la pérdida de datos y garantizar el cumplimiento.
Replicación Asíncrona
Un método de replicación de bases de datos donde el nodo primario registra los datos y luego los copia en los nodos secundarios, introduciendo un ligero retraso (lag).
Se utiliza a menudo en configuraciones Activo-Pasivo, pero conlleva el riesgo de perder registros contables recientes si el nodo primario falla abruptamente.
Dispositivo de Acceso a la Red (NAD)
El componente de hardware (como un punto de acceso WiFi, switch o puerta de enlace VPN) que solicita la autenticación al servidor RADIUS en nombre del usuario.
Los temporizadores internos de reintento y tiempo de espera del NAD dictan qué tan rápido ocurre una conmutación por error Activo-Pasivo.
Protocolo sin Estado
Un protocolo de comunicaciones que trata cada solicitud como una transacción independiente, sin relación con ninguna solicitud anterior.
La autenticación RADIUS sobre UDP es sin estado, lo que permite a los balanceadores de carga enrutar cualquier solicitud a cualquier servidor activo sin problemas.
Desviación de Configuración
El fenómeno por el cual los servidores secundarios o de respaldo se desincronizan con el servidor primario a lo largo del tiempo en relación con políticas, actualizaciones o certificados.
La causa principal de fallas en las implementaciones RADIUS Activo-Pasivo cuando el nodo secundario se ve obligado a tomar el control.
Cloud RADIUS
Un servicio de autenticación administrado y alojado en una infraestructura de nube distribuida globalmente, que proporciona redundancia Activo-Activo integrada y escalabilidad automática.
Reemplaza la necesidad de que los equipos de TI construyan, parchen y monitoreen manualmente servidores RADIUS locales redundantes.
Ejemplos resueltos
Un grupo hotelero europeo gestiona 45 propiedades en seis países. Actualmente operan máquinas virtuales FreeRADIUS independientes en cada propiedad. Un certificado TLS recientemente expirado en una ubicación causó una interrupción completa del WiFi para huéspedes durante una conferencia importante. ¿Cómo deberían rediseñar su arquitectura de autenticación para evitar interrupciones localizadas y reducir los costos de mantenimiento?
El grupo hotelero debe migrar de instancias FreeRADIUS localizadas de un solo nodo a una plataforma Cloud RADIUS centralizada que utilice una arquitectura Active-Active. Al aprovechar un proveedor de nube con nodos perimetrales distribuidos geográficamente, las solicitudes de autenticación de cada propiedad se enrutan al nodo regional más cercano, minimizando la latencia. La gestión centralizada de políticas permite al equipo de TI definir las reglas de autenticación una sola vez y aplicarlas globalmente. El proveedor de nube gestiona automáticamente la rotación de certificados TLS, el parcheo del sistema operativo y la replicación de la base de datos.
Un estadio deportivo nacional se está preparando para un evento de 60,000 asistentes. Su configuración actual de RADIUS es Active-Passive. Durante las pruebas de carga, el servidor primario se saturó procesando 8,000 solicitudes de autenticación por minuto cuando se abrieron las puertas, lo que provocó graves retrasos en la conexión, mientras que el servidor secundario permaneció completamente inactivo. ¿Cómo pueden optimizar esta implementación?
El equipo de ingeniería de red debe convertir la implementación de Active-Passive a Active-Active. Primero, deben reconfigurar los Dispositivos de Acceso a la Red (NADs) del estadio para utilizar un balanceo de carga round-robin entre ambos servidores RADIUS, duplicando instantáneamente su capacidad de procesamiento de autenticaciones. Segundo, deben aprovisionar un tercer nodo RADIUS para proporcionar el margen necesario para los picos de demanda. Finalmente, para garantizar que los datos de contabilidad sigan siendo consistentes en los tres nodos activos, deben implementar una solución de replicación de base de datos multi-maestro síncrona, como Galera Cluster.
Preguntas de práctica
Q1. Tu cliente de retail empresarial requiere una solución RADIUS de alta disponibilidad para sus terminales de punto de venta. Tienen requisitos estrictos de cumplimiento de PCI DSS que dictan que no se puede perder absolutamente ningún dato de sesión de contabilidad durante una falla del servidor. ¿Qué estrategia de replicación de base de datos debes implementar para el backend de RADIUS?
Sugerencia: Considera la diferencia entre que los datos se escriban simultáneamente y que se copien después del hecho.
Ver respuesta modelo
Debes implementar Replicación Síncrona (como un Galera Cluster o MySQL NDB Cluster). La replicación síncrona garantiza que el registro de contabilidad se confirme en todos los nodos simultáneamente antes de reconocer la transacción. Si utilizaras replicación asíncrona, una falla en el nodo podría resultar en la pérdida de transacciones recientes que aún no se habían copiado en la base de datos secundaria, violando el estricto requisito de cumplimiento.
Q2. Una red de campus universitario utiliza una configuración RADIUS Activo-Pasivo. Los estudiantes se quejan de que cuando el servidor principal entra en mantenimiento, sus laptops tardan casi 20 segundos en conectarse a la WiFi. Los puntos de acceso están configurados con un tiempo de espera de RADIUS de 3 segundos y 5 reintentos. ¿Cómo puedes reducir el retraso de conmutación por error sin cambiar la arquitectura del servidor?
Sugerencia: Calcula el tiempo de espera máximo basado en los temporizadores del NAD antes de que intente con el servidor secundario.
Ver respuesta modelo
Debes ajustar los temporizadores en los Dispositivos de Acceso a la Red (puntos de acceso). Actualmente, el AP espera 3 segundos y reintenta 5 veces, lo que resulta en un retraso de 18 segundos (3 segundos × 6 intentos totales) antes de pasar al servidor pasivo. Al reducir la configuración a un tiempo de espera de 2 segundos y 2 reintentos, el tiempo de detección de conmutación por error disminuye a 6 segundos, mejorando significativamente la experiencia del usuario durante las ventanas de mantenimiento.
Q3. Estás migrando una red corporativa multisitio de un servidor RADIUS local Activo-Pasivo a una plataforma Cloud RADIUS Activo-Activo. Durante la fase piloto, los dispositivos se autentican correctamente contra el Nodo Cloud A, pero cuando el balanceador de carga los enruta al Nodo Cloud B, los saludos de conexión (handshakes) EAP-TLS fallan. ¿Cuál es el error de configuración más probable?
Sugerencia: Considera lo que verifica el dispositivo cliente al establecer un túnel EAP seguro con un nuevo servidor.
Ver respuesta modelo
El problema más probable es una discrepancia en la Confianza del Certificado. En un clúster Activo-Activo, todos los nodos RADIUS deben presentar exactamente el mismo certificado de servidor (o certificados emitidos exactamente por la misma cadena de CA de confianza). Si el Nodo Cloud B presenta un certificado diferente en el que los dispositivos cliente no confían, el saludo de conexión EAP-TLS será rechazado por el cliente, lo que provocará que la autenticación falle a pesar de que el servidor funcione correctamente.
Continúe leyendo esta serie
Per-Device PSK por proveedor: comparación de iPSK, DPSK, MPSK y PPSK (y soporte de WPA3)
Una comparación exhaustiva de las implementaciones de per-device PSK en Cisco Meraki, HPE Aruba, Ruckus, Juniper Mist, Extreme, Fortinet y Ubiquiti UniFi. Conozca cómo WPA3-SAE afecta las estrategias de claves por dispositivo y cuándo implementar modos de transición en lugar de migrar a 802.1X.
Captive Portal Authentication Methods Compared
Esta guía de referencia técnica autorizada evalúa las ventajas y desventajas arquitectónicas, operativas y de cumplimiento de cinco métodos principales de autenticación de Captive Portal. Proporciona a los arquitectos de red, directores de TI y gerentes de marketing los datos cuantitativos y los marcos de decisión necesarios para equilibrar la fricción del registro de invitados con los requisitos de recopilación de datos en los establecimientos empresariales.
¿Qué es la autenticación por dirección MAC? Cuándo usarla y cuándo evitarla
Esta guía de referencia técnica autorizada cubre la autenticación por dirección MAC en entornos de WiFi empresariales: cómo funciona la autenticación MAC basada en RADIUS en la Capa 2, sus vulnerabilidades de seguridad inherentes (incluyendo el spoofing de MAC y el impacto de la aleatorización de MAC a nivel de sistema operativo) y los contextos operativos precisos donde sigue siendo una herramienta válida para gestionar dispositivos IoT y headless. Proporciona orientación de implementación práctica para gerentes de TI y arquitectos de redes en sectores como hotelería, retail, salud y espacios públicos, con ejemplos prácticos del mundo real, marcos de decisión y contexto de integración para la plataforma de analítica y WiFi de invitados de Purple.