Saltar al contenido principal

RADIUS Server High Availability: Active-Active vs Active-Passive

Una guía de referencia técnica definitiva para gerentes de TI y arquitectos de red que evalúan arquitecturas de alta disponibilidad RADIUS. Contrasta implementaciones Active-Active y Active-Passive, detalla los requisitos de replicación de bases de datos y explica cómo Cloud RADIUS mitiga la latencia de failover para recintos empresariales.

📖 6 min de lectura📝 1,317 palabras🔧 2 ejemplos resueltos3 preguntas de práctica📚 8 definiciones clave

Escucha esta guía

Ver transcripción del podcast
# Alta disponibilidad del servidor RADIUS: Activo-Activo vs. Activo-Pasivo ## Resumen técnico de Purple — Guion de podcast (~10 minutos) --- **PARTE 1 — INTRODUCCIÓN Y CONTEXTO (aprox. 1 minuto)** Bienvenido al resumen técnico de Purple. Soy su anfitrión, y hoy abordaremos una de las decisiones de infraestructura más trascendentales para cualquier organización que opere WiFi empresarial: la alta disponibilidad del servidor RADIUS. Si usted es un arquitecto de redes o director de TI responsable de la infraestructura de autenticación en un grupo hotelero, una cadena de tiendas de retail, un estadio o una instalación del sector público, este resumen le proporcionará los marcos de trabajo y los detalles técnicos específicos que necesita para tomar la decisión correcta — y evitar los errores que causan caídas de autenticación en el peor momento posible. Permítame contextualizar la situación. RADIUS — Remote Authentication Dial-In User Service — es el guardián de su red. Cada vez que un empleado se conecta a través de 802.1X, o un invitado se autentica mediante su Captive Portal, RADIUS es el motor que verifica las credenciales y autoriza el acceso. Es la columna vertebral de las implementaciones empresariales IEEE 802.1X y WPA3. Y a diferencia de la mayoría de los servicios de TI que se degradan gradualmente cuando fallan, RADIUS es binario: o funciona, o nadie accede a la red. Esa asimetría es lo que hace que la alta disponibilidad sea tan crítica. --- **PARTE 2 — ANÁLISIS TÉCNICO DETALLADO (aprox. 5 minutos)** Comencemos con los fundamentos. RADIUS opera sobre UDP — típicamente el puerto 1812 para autenticación y el 1813 para contabilidad (accounting). La naturaleza sin estado de UDP es en realidad una ventaja para el diseño de alta disponibilidad: debido a que cada solicitud de autenticación es independiente, cualquier servidor en un clúster puede procesar cualquier solicitud sin necesidad de saber qué ocurrió antes. Esta es la propiedad arquitectónica que hace que las implementaciones activo-activo sean tan elegantes. Ahora bien, existen dos modelos principales de alta disponibilidad que debe comprender. **Activo-Pasivo** es el enfoque tradicional. Cuenta con un servidor RADIUS primario que maneja todo el tráfico de autenticación y un servidor secundario en modo de espera (standby), que recibe datos replicados pero no procesa solicitudes. Cuando el primario falla, el dispositivo de acceso a la red (NAS) — su punto de acceso, su switch, su gateway VPN — detecta la falla y redirige el tráfico al secundario. ¿Cuánto tiempo toma esa conmutación por error (failover)? Aquí es donde los detalles importan. El NAS envía una solicitud RADIUS y espera. El tiempo de espera de paquete (timeout) predeterminado suele ser de dos segundos. Después de eso, reintenta — por lo general, tres intentos por servidor. Con dos servidores configurados, el tiempo máximo de detección de failover es de aproximadamente seis a doce segundos en una implementación bien optimizada. En el peor de los casos, con tres servidores y temporizadores predeterminados, ese tiempo puede extenderse a dieciocho segundos. Para un huésped de hotel que intenta conectarse al hacer el check-in, o un asociado de retail que intenta procesar una transacción, esa es una ventana de espera muy molesta. **Active-Active** es el enfoque más sofisticado y, para la mayoría de las implementaciones empresariales, es el adecuado. Ambos —o todos— los servidores RADIUS procesan solicitudes de autenticación de forma simultánea. El tráfico se distribuye a lo largo del clúster ya sea mediante rotación round-robin o por un balanceador de carga dedicado. Cuando un nodo falla, los nodos restantes absorben su tráfico de inmediato. No hay retraso en la detección de conmutación por error porque no existe una conmutación por error en el sentido tradicional: el balanceador de carga simplemente deja de enviar solicitudes al nodo con problemas, normalmente en un plazo de uno a dos segundos según los intervalos de verificación de estado. Los beneficios de rendimiento se multiplican. En un recinto grande —piense en un estadio de 60,000 asientos o un centro de conferencias que alberga una gran exposición— se pueden ver miles de solicitudes de autenticación simultáneas cuando se abren las puertas o cuando ocurre un receso de sesión. Un solo servidor RADIUS, incluso uno con buenas especificaciones, puede convertirse en un cuello de botella. Un clúster active-active escala horizontalmente: agregue otro nodo y agregará capacidad proporcional. Ahora, hablemos de la capa de base de datos, porque aquí es donde muchas implementaciones tienen problemas. La autenticación RADIUS en sí misma es en gran medida sin estado: el servidor verifica las credenciales contra un directorio y devuelve un Aceptar o Rechazar. Pero el registro de conexiones (accounting) de RADIUS tiene estado: realiza un seguimiento del inicio de la sesión, las actualizaciones provisionales y los eventos de finalización de la sesión. Si utiliza el registro de conexiones para facturación, registro de cumplimiento o gestión de sesiones, necesita que esos datos sean consistentes en todos los nodos. El enfoque estándar es respaldar su clúster RADIUS con una base de datos replicada. FreeRADIUS, el servidor RADIUS de código abierto más implementado en el mundo, se integra con MySQL y MariaDB. Para implementaciones active-active, tiene dos opciones principales: MySQL NDB Cluster, que proporciona replicación síncrona multi-maestro con conmutación por error en menos de un segundo, o Galera Cluster, que ofrece una replicación síncrona similar con una gestión operativa ligeramente más sencilla. Ambos eliminan el riesgo de pérdida de datos en caso de falla del nodo. La replicación asíncrona —la réplica primaria estándar de MySQL— es más económica pero introduce un retraso de replicación que puede resultar en la pérdida de registros de conexiones si la primaria falla antes de que se repliquen los cambios. Permítame abordar la cuestión de la distribución geográfica, porque esto es cada vez más relevante para los operadores de múltiples sitios. Si administra una cadena minorista con 200 tiendas, o un grupo hotelero con propiedades en varios países, la pregunta no es solo "¿cómo hago que mi servidor RADIUS sea redundante?", sino "¿dónde deberían ubicarse mis servidores RADIUS en relación con mis puntos de acceso?" El redireccionamiento (backhauling) del tráfico de autenticación desde un sitio remoto a un centro de datos central introduce latencia de WAN y un punto único de falla en el enlace WAN. Si ese enlace se cae, el sitio remoto no puede autenticar a nadie, sin importar qué tan redundante sea su clúster RADIUS central. La solución es implementar instancias locales de RADIUS en cada sitio —lo que genera una carga operativa significativa— o utilizar un servicio de cloud RADIUS con nodos perimetrales distribuidos geográficamente. Las plataformas de cloud RADIUS resuelven el problema de alta disponibilidad (HA) a nivel arquitectónico. En lugar de que usted construya y administre una infraestructura redundante, el proveedor opera RADIUS en múltiples zonas de disponibilidad y regiones. La conmutación por error (failover) entre nodos ocurre de forma automática, normalmente en menos de un segundo, porque es gestionada por el equilibrio de carga interno de la plataforma y no por los temporizadores de reintento del NAS. Los compromisos de SLA de los proveedores de cloud RADIUS empresariales suelen ser del 99.99% de tiempo de actividad —eso es menos de 53 minutos de inactividad al año. También existe una dimensión de cumplimiento importante aquí. PCI DSS requiere controles de autenticación sólidos para los entornos de datos de titulares de tarjetas. El GDPR trata los registros de autenticación como datos personales, lo que exige un manejo adecuado y controles de residencia de datos. Los proveedores de cloud RADIUS suelen contar con certificaciones SOC 2 Tipo II y ofrecen acuerdos de procesamiento de datos de GDPR con opciones de residencia de datos regionales. Las implementaciones locales (on-premise) le brindan un control total sobre la ubicación de los datos, lo cual es fundamental en entornos de atención médica bajo los marcos de gobernanza de datos del NHS, o en instalaciones gubernamentales con requisitos de soberanía de datos. --- **PARTE 3 — RECOMENDACIONES DE IMPLEMENTACIÓN Y ERRORES COMUNES (aprox. 2 minutos)** Permítame guiarlo a través de dos escenarios del mundo real que ilustran estos principios en la práctica. Primero: un grupo hotelero europeo con 45 propiedades en seis países. Su equipo de TI de tres ingenieros ejecutaba FreeRADIUS en máquinas virtuales en cada propiedad —45 instancias independientes que parchar, monitorear y mantener. Cuando un certificado TLS expiró en una propiedad, provocó una interrupción total del WiFi para huéspedes durante una conferencia importante. La solución requirió que un ingeniero se conectara de forma remota y renovara manualmente el certificado —un proceso que tomó 40 minutos mientras los huéspedes no podían conectarse. Después de migrar a un servicio de cloud RADIUS con gestión de políticas centralizada, el equipo eliminó por completo el mantenimiento por sitio. La rotación de certificados se volvió automática. Los tres ingenieros recuperaron aproximadamente el 40 por ciento de su tiempo que antes dedicaban a las operaciones de RADIUS. Más importante aún, la arquitectura activo-activo de la plataforma en múltiples regiones de la nube significó que la falla de un solo nodo —que antes habría causado una interrupción en el sitio— se convirtiera en un no-evento. Segundo escenario: un estadio deportivo nacional que alberga a 60,000 aficionados para un evento importante. El equipo de red había implementado una configuración RADIUS activo-pasivo con un servidor principal y uno de reserva (hot standby). Durante una prueba de carga previa al evento, descubrieron que el servidor principal se estaba saturando durante el pico de autenticación cuando se abrían las puertas, procesando 8,000 solicitudes de autenticación por minuto. El secundario pasivo estaba inactivo mientras el principal tenía dificultades. La solución fue reconfigurar los dispositivos NAS para utilizar un balanceo de carga round-robin en ambos servidores, convirtiendo eficazmente la implementación en activo-activo. El rendimiento de la autenticación se duplicó de inmediato. También agregaron un tercer servidor para proporcionar margen de maniobra para la carga máxima y configuraron la replicación de Galera Cluster para la base de datos de contabilidad. El resultado fue una implementación que podía absorber la pérdida de cualquier nodo individual sin ningún impacto visible para el usuario. Ahora, los errores comunes. El error más frecuente es tratar al servidor RADIUS secundario como un respaldo de "configurar y olvidar". Las configuraciones se desvían. Los certificados caducan en el secundario mientras el principal funciona bien. Cuando el principal finalmente falla y el secundario toma el control, este también falla, por una razón completamente diferente. La solución es simple: pruebe su failover con regularidad, al menos trimestralmente, y trate a ambos nodos como sistemas de producción. El segundo error común es descuidar el retraso de replicación de la base de datos. Si utiliza una replicación asíncrona y su nodo de base de datos principal falla, puede perder registros de contabilidad de las sesiones que estaban activas en el momento de la falla. Para el cumplimiento de PCI DSS, esta es una brecha grave. Utilice replicación síncrona (Galera o NDB) para cualquier implementación donde la integridad de los datos de contabilidad sea un requisito de cumplimiento. --- **PARTE 4 — PREGUNTAS Y RESPUESTAS RÁPIDAS (aprox. 1 minuto)** Permítanme responder a las preguntas que escucho con más frecuencia de los arquitectos de red. "¿Cuál es la configuración mínima viable de alta disponibilidad (HA)?" Dos servidores RADIUS con failover activo-pasivo, sincronización de secreto compartido y un backend de base de datos replicado. Ese es el mínimo. Para cualquier escenario con más de 500 usuarios concurrentes, pase a activo-activo. "¿Puedo usar un balanceador de carga de hardware para RADIUS?" Sí, pero RADIUS utiliza UDP y muchos balanceadores de carga están optimizados para TCP. Asegúrese de que su balanceador de carga admita el balanceo de carga UDP con verificaciones de estado. HAProxy Enterprise tiene un módulo UDP RADIUS dedicado. F5 BIG-IP lo maneja de forma nativa. "¿Cómo manejo la confianza de certificados EAP en un clúster de alta disponibilidad (HA)?" Todos los nodos deben presentar el mismo certificado de servidor o, como mínimo, certificados de la misma cadena de CA. Los clientes validan el certificado del servidor durante los saludos de conexión (handshakes) EAP-TLS y PEAP; si los nodos presentan certificados diferentes, verá fallas de autenticación después del failover. "¿Funciona el RADIUS en la nube con Active Directory local?" Sí, a través de un conector ligero o un proxy LDAP que consulta su AD local sin exponerlo directamente a Internet. Este es el patrón de integración estándar para entornos híbridos. --- **PARTE 5 — RESUMEN Y PRÓXIMOS PASOS (aprox. 1 minuto)** Permítame concluir con las decisiones clave que debe tomar. Si opera con menos de 500 usuarios concurrentes en un solo sitio con un equipo estable para administrar la infraestructura, el modelo activo-pasivo con un procedimiento de failover bien probado es una opción defendible. Manténgalo simple, pruébelo con regularidad y utilice la replicación síncrona de bases de datos. Si opera un patrimonio de múltiples sitios, un recinto de alta densidad o si el ancho de banda de su equipo es limitado, el modelo activo-activo es la arquitectura adecuada — y cloud RADIUS es el camino más rápido para lograrlo sin tener que construir la infraestructura usted mismo. Cualquiera que sea el modelo que elija, los principios son los mismos: distribuir en lugar de duplicar, automatizar las decisiones de failover y probar sus escenarios de falla antes de que ellos lo pongan a prueba a usted. Para obtener más información sobre cómo la plataforma de Purple maneja la autenticación RADIUS a escala — incluyendo la integración con 802.1X, WPA3 enterprise y portales de WiFi para invitados — visite purple.ai. Hasta la próxima. --- *Fin del guion. Tiempo aproximado de lectura a 150 palabras por minuto: 10 minutos.*

header_image.png

Resumen Ejecutivo

Para las redes empresariales, la autenticación es binaria: o funciona a la perfección, o las operaciones comerciales se detienen por completo. RADIUS (Remote Authentication Dial-In User Service) actúa como el guardián crítico para las implementaciones de IEEE 802.1X, WPA3 enterprise y Guest WiFi en los recintos modernos. A diferencia de los servicios de aplicaciones que se degradan gradualmente bajo carga, una falla de RADIUS bloquea inmediatamente el acceso a la red de los usuarios, terminales de punto de venta y dispositivos operativos.

Esta guía de referencia técnica evalúa los modelos arquitectónicos para implementar una infraestructura RADIUS de alta disponibilidad. Específicamente, contrasta las configuraciones tradicionales Activo-Pasivo con los clústeres modernos Activo-Activo. Para los gerentes de TI, arquitectos de redes y directores de operaciones de recintos que gestionan entornos de alta densidad como Retail , Hospitality y estadios, comprender estas estrategias de failover, la mecánica de balanceo de carga y los requisitos de replicación de bases de datos es esencial.

Además, esta guía examina cómo las plataformas Cloud RADIUS abstraen la complejidad de la alta disponibilidad, proporcionando failover automático y escalabilidad elástica sin la carga operativa de mantener una infraestructura redundante en las instalaciones. Al aplicar estas mejores prácticas neutrales del proveedor, los equipos de ingeniería pueden diseñar arquitecturas de autenticación que eliminen los puntos únicos de falla y cumplan con los estrictos Acuerdos de Nivel de Servicio (SLAs) de tiempo de actividad.

Análisis Técnico Profundo: Comprensión de la Arquitectura RADIUS

RADIUS opera como un protocolo cliente-servidor sobre UDP, utilizando típicamente el puerto 1812 para la autenticación y el puerto 1813 para la contabilidad, como se define en RFC 2865 y RFC 2866. La naturaleza sin estado de las solicitudes de autenticación UDP es una ventaja estructural para el diseño de alta disponibilidad. Debido a que cada paquete Access-Request contiene todas las credenciales y parámetros necesarios, cualquier servidor RADIUS dentro de un clúster puede procesar cualquier solicitud de forma independiente, sin requerir una sincronización de estado compleja para la fase de autenticación en sí.

Arquitectura Activo-Pasivo

En una implementación Activo-Pasivo (o primario-secundario), un único servidor RADIUS procesa todo el tráfico entrante de autenticación y contabilidad. Un servidor secundario permanece en línea pero inactivo, recibiendo actualizaciones de replicación de la base de datos pero sin responder activamente a los Dispositivos de Acceso a la Red (NADs), como puntos de acceso, switches o gateways VPN.

Cuando el servidor principal falla, el NAD detecta el tiempo de espera agotado y redirige las solicitudes posteriores al servidor secundario. El tiempo de detección de conmutación por error depende completamente de los temporizadores de configuración del NAD. Un NAD típico envía una solicitud RADIUS y espera un tiempo de espera de paquete predeterminado (a menudo dos segundos). Si no recibe respuesta, lo reintenta. Con una configuración estándar de tres intentos por servidor, el NAD puede esperar hasta seis segundos antes de declarar inactivo al servidor principal y realizar la conmutación por error al secundario. En entornos con tres servidores configurados, esta ventana de conmutación por error puede extenderse hasta dieciocho segundos. Para un lugar de Hospitality concurrido o un entorno de Retail que procesa transacciones, este retraso representa una interrupción notable del servicio.

Arquitectura Activo-Activo

Por el contrario, una arquitectura Activo-Activo distribuye la carga de autenticación a través de múltiples servidores RADIUS operativos de forma simultánea. El tráfico se enruta al clúster ya sea mediante una configuración de tipo round-robin en los NAD o a través de un balanceador de carga dedicado.

comparison_chart.png

Este modelo elimina el retraso en la detección de conmutación por error inherente a las configuraciones Activo-Pasivo. Si un nodo falla, el balanceador de carga (o los NAD que utilizan round-robin) simplemente deja de enrutar tráfico al servidor que no responde, normalmente en un plazo de uno a dos segundos según los intervalos de verificación de estado. Los nodos activos restantes absorben el tráfico al instante. Además, los clústeres Activo-Activo se escalan horizontalmente; agregar capacidad para eventos de alta densidad simplemente requiere aprovisionar nodos adicionales al clúster.

El desafío de la replicación de bases de datos

Aunque la autenticación RADIUS no tiene estado (stateless), el registro de conexiones (accounting) de RADIUS es inherentemente con estado (stateful). Realiza el seguimiento del inicio de la sesión (Start), el uso continuo (Interim-Update) y la finalización (Stop). Para los establecimientos que utilizan WiFi Analytics o sistemas de facturación, estos datos de registro de conexiones deben mantener la coherencia en todos los nodos.

Respaldar un clúster RADIUS con una base de datos replicada (como MySQL o MariaDB integrada con FreeRADIUS) es obligatorio para una alta disponibilidad sólida. Para implementaciones Activo-Activo, se requiere una replicación síncrona de múltiples maestros, como Galera Cluster o MySQL NDB Cluster. La replicación síncrona garantiza que un registro de conexión se confirme en todos los nodos simultáneamente, lo que evita la pérdida de datos si un nodo falla. La replicación asíncrona tradicional, que se utiliza a menudo en configuraciones Activo-Pasivo, introduce un retraso de replicación. Si el nodo principal falla antes de que el secundario reciba la actualización, los datos de la sesión activa se pierden de forma permanente, lo que puede violar los marcos de cumplimiento como PCI DSS.

Guía de implementación: Nube frente a local (On-Premise)

The architectural decision extends beyond how to cluster servers; it involves where those servers reside. For multi-site operators, backhauling authentication traffic to a centralized on-premise data center introduces WAN latency and creates a single point of failure at the WAN link.

Cloud RADIUS Platforms

Cloud RADIUS services resolve geographic distribution challenges by hosting authentication infrastructure across multiple global availability zones. When a user connects at a branch location, the request is routed to the nearest cloud edge node, minimizing latency.

architecture_overview.png

La arquitectura de nube utiliza de forma inherente arquitecturas Activo-Activo. El failover entre zonas de disponibilidad se gestiona automáticamente mediante el balanceo de carga interno del proveedor, abstrayendo por completo la complejidad para el equipo de ingeniería del cliente. Este modelo suele ofrecer SLAs de tiempo de actividad del 99.99% y elimina la necesidad de gestionar certificados manualmente, aplicar parches al sistema operativo y ajustar la replicación de bases de datos. Para las organizaciones que implementan Wayfinding o Sensors en campus distribuidos, la autenticación alojada en la nube garantiza una aplicación uniforme de las políticas sin dependencias de hardware local.

On-Premise Deployment Considerations

Las organizaciones que operan en sectores altamente regulados —como entornos gubernamentales o de Healthcare específicos— pueden requerir implementaciones locales debido a estrictos mandatos de soberanía de datos. En estos escenarios, implementar un clúster FreeRADIUS Activo-Activo con replicación síncrona de Galera proporciona el mayor nivel de resiliencia.

Sin embargo, los equipos de ingeniería deben tener en cuenta la sobrecarga operativa. La gestión de certificados TLS en múltiples nodos, la garantía de consistencia en la configuración y el monitoreo activo de la salud de la replicación de la base de datos requieren recursos administrativos dedicados. Los balanceadores de carga de hardware deben configurarse específicamente para admitir tráfico UDP con las comprobaciones de salud de RADIUS adecuadas, ya que muchos balanceadores de carga estándar están optimizados únicamente para tráfico TCP HTTP/HTTPS.

Best Practices for RADIUS High Availability

  1. Distribuir en lugar de duplicar: Para implementaciones que superen los 500 usuarios concurrentes, priorice las arquitecturas Activo-Activo sobre las configuraciones Activo-Pasivo para maximizar el rendimiento y minimizar la latencia de failover.
  2. Implementar replicación síncrona: Proteja los datos de contabilidad con estado utilizando una replicación de base de datos multi-maestro síncrona (por ejemplo, Galera Cluster) en lugar de modelos primario-réplica asíncronos.
  3. Estandarizar la confianza de certificados: En un clúster Activo-Activo, asegúrese de que todos los nodos presenten el mismo certificado de servidor o certificados de la misma cadena de Autoridad de Certificación (CA). Las discrepancias provocarán que los saludos EAP-TLS y PEAP fallen durante la rotación de nodos.
  4. Ajustar los temporizadores de NAD: Optimice los temporizadores de reintento y de tiempo de espera de RADIUS en sus Network Access Devices. Un tiempo de espera de dos segundos con dos reintentos proporciona un equilibrio entre la detección rápida de fallas y la prevención de fallas prematuras durante una congestión menor de la red.
  5. Probar escenarios de falla: Trate los nodos secundarios como sistemas de producción. Simule regularmente fallas de nodos, desincronización de bases de datos y caídas de enlaces WAN para validar que los mecanismos de failover automatizados funcionen según lo diseñado.

Resolución de problemas y mitigación de riesgos

El modo de falla más común en la alta disponibilidad de RADIUS es la discrepancia de configuración. En las configuraciones Activo-Pasivo, los administradores suelen actualizar las políticas o renovar los certificados en el nodo primario, pero descuidan el secundario. Cuando ocurre un evento de failover, el nodo secundario rechaza el tráfico legítimo debido a credenciales vencidas o políticas desactualizadas.

Para mitigar este riesgo, implemente herramientas de gestión de configuración (como Ansible o Terraform) para implementar cambios de manera simétrica en todos los nodos. Para la gestión de certificados, utilice protocolos de renovación automatizados (como ACME) configurados para distribuir el certificado actualizado en todo el clúster de forma simultánea.

Otro riesgo importante es la configuración incorrecta del balanceador de carga. Si un balanceador de carga no realiza verificaciones de estado a nivel de aplicación (específicamente verificando la capacidad de respuesta del puerto UDP 1812), puede continuar enrutando el tráfico a un nodo donde el sistema operativo está funcionando pero el demonio RADIUS se ha caído. Asegúrese de que las verificaciones de estado validen explícitamente la disponibilidad del servicio RADIUS.

ROI e impacto empresarial

El retorno de la inversión para una alta disponibilidad sólida de RADIUS se mide principalmente a través de la mitigación de riesgos y la eficiencia operativa. Las interrupciones de autenticación provocan pérdidas de productividad inmediatas para los empleados y graves daños a la reputación de los establecimientos abiertos al público.

Al realizar la transición de implementaciones manuales de un solo servidor a arquitecturas automatizadas Activo-Activo (particularmente a través de Cloud RADIUS), las organizaciones recuperan valiosas horas de ingeniería que antes se dedicaban al mantenimiento de rutina. Esta eficiencia operativa permite a los equipos de red centrarse en iniciativas estratégicas, como implementar The Core SD WAN Benefits for Modern Businesses o la optimización de la cobertura de alta densidad, en lugar de apagar fuegos por fallas de autenticación. En última instancia, una autenticación confiable es la capa fundamental sobre la cual dependen todos los servicios de red posteriores.

Definiciones clave

Arquitectura Activo-Activo

Un diseño de alta disponibilidad donde múltiples servidores RADIUS procesan solicitudes de autenticación de forma simultánea, distribuyendo la carga y proporcionando una conmutación por error instantánea sin retrasos de detección.

Esencial para recintos de alta densidad (estadios, grandes tiendas de retail) donde un solo servidor no puede manejar los picos de sobrecarga de autenticación.

Arquitectura Activo-Pasivo

Un modelo de redundancia donde un servidor primario maneja todo el tráfico y un servidor secundario permanece inactivo en espera hasta que el primario falla.

Adecuada para implementaciones más pequeñas y sensibles a los costos, pero introduce un retraso de conmutación por error de 6 a 18 segundos mientras el dispositivo de acceso a la red detecta la falla.

Replicación Síncrona

Un método de replicación de bases de datos donde los datos se escriben en todos los nodos de un clúster simultáneamente antes de que la transacción se considere completa.

Obligatoria para bases de datos de contabilidad RADIUS Activo-Activo (como Galera Cluster) para evitar la pérdida de datos y garantizar el cumplimiento.

Replicación Asíncrona

Un método de replicación de bases de datos donde el nodo primario registra los datos y luego los copia en los nodos secundarios, introduciendo un ligero retraso (lag).

Se utiliza a menudo en configuraciones Activo-Pasivo, pero conlleva el riesgo de perder registros contables recientes si el nodo primario falla abruptamente.

Dispositivo de Acceso a la Red (NAD)

El componente de hardware (como un punto de acceso WiFi, switch o puerta de enlace VPN) que solicita la autenticación al servidor RADIUS en nombre del usuario.

Los temporizadores internos de reintento y tiempo de espera del NAD dictan qué tan rápido ocurre una conmutación por error Activo-Pasivo.

Protocolo sin Estado

Un protocolo de comunicaciones que trata cada solicitud como una transacción independiente, sin relación con ninguna solicitud anterior.

La autenticación RADIUS sobre UDP es sin estado, lo que permite a los balanceadores de carga enrutar cualquier solicitud a cualquier servidor activo sin problemas.

Desviación de Configuración

El fenómeno por el cual los servidores secundarios o de respaldo se desincronizan con el servidor primario a lo largo del tiempo en relación con políticas, actualizaciones o certificados.

La causa principal de fallas en las implementaciones RADIUS Activo-Pasivo cuando el nodo secundario se ve obligado a tomar el control.

Cloud RADIUS

Un servicio de autenticación administrado y alojado en una infraestructura de nube distribuida globalmente, que proporciona redundancia Activo-Activo integrada y escalabilidad automática.

Reemplaza la necesidad de que los equipos de TI construyan, parchen y monitoreen manualmente servidores RADIUS locales redundantes.

Ejemplos resueltos

Un grupo hotelero europeo gestiona 45 propiedades en seis países. Actualmente operan máquinas virtuales FreeRADIUS independientes en cada propiedad. Un certificado TLS recientemente expirado en una ubicación causó una interrupción completa del WiFi para huéspedes durante una conferencia importante. ¿Cómo deberían rediseñar su arquitectura de autenticación para evitar interrupciones localizadas y reducir los costos de mantenimiento?

El grupo hotelero debe migrar de instancias FreeRADIUS localizadas de un solo nodo a una plataforma Cloud RADIUS centralizada que utilice una arquitectura Active-Active. Al aprovechar un proveedor de nube con nodos perimetrales distribuidos geográficamente, las solicitudes de autenticación de cada propiedad se enrutan al nodo regional más cercano, minimizando la latencia. La gestión centralizada de políticas permite al equipo de TI definir las reglas de autenticación una sola vez y aplicarlas globalmente. El proveedor de nube gestiona automáticamente la rotación de certificados TLS, el parcheo del sistema operativo y la replicación de la base de datos.

Comentario del examinador: Este enfoque elimina 45 puntos únicos de falla y quita la carga operativa del mantenimiento por sitio. La arquitectura de nube Active-Active garantiza que si un nodo regional específico experimenta un problema, el tráfico se enruta de forma automática e instantánea a la siguiente zona de disponibilidad más cercana, lo que resulta en cero tiempo de inactividad percibido por los huéspedes.

Un estadio deportivo nacional se está preparando para un evento de 60,000 asistentes. Su configuración actual de RADIUS es Active-Passive. Durante las pruebas de carga, el servidor primario se saturó procesando 8,000 solicitudes de autenticación por minuto cuando se abrieron las puertas, lo que provocó graves retrasos en la conexión, mientras que el servidor secundario permaneció completamente inactivo. ¿Cómo pueden optimizar esta implementación?

El equipo de ingeniería de red debe convertir la implementación de Active-Passive a Active-Active. Primero, deben reconfigurar los Dispositivos de Acceso a la Red (NADs) del estadio para utilizar un balanceo de carga round-robin entre ambos servidores RADIUS, duplicando instantáneamente su capacidad de procesamiento de autenticaciones. Segundo, deben aprovisionar un tercer nodo RADIUS para proporcionar el margen necesario para los picos de demanda. Finalmente, para garantizar que los datos de contabilidad sigan siendo consistentes en los tres nodos activos, deben implementar una solución de replicación de base de datos multi-maestro síncrona, como Galera Cluster.

Comentario del examinador: La conversión a Active-Active escala horizontalmente la capacidad de procesamiento, abordando directamente el cuello de botella. El uso de la replicación síncrona de bases de datos es fundamental en este escenario; garantiza que los datos de contabilidad de la sesión no se pierdan si un nodo falla durante la afluencia masiva de usuarios, lo cual es esencial para análisis precisos y cumplimiento.

Preguntas de práctica

Q1. Tu cliente de retail empresarial requiere una solución RADIUS de alta disponibilidad para sus terminales de punto de venta. Tienen requisitos estrictos de cumplimiento de PCI DSS que dictan que no se puede perder absolutamente ningún dato de sesión de contabilidad durante una falla del servidor. ¿Qué estrategia de replicación de base de datos debes implementar para el backend de RADIUS?

Sugerencia: Considera la diferencia entre que los datos se escriban simultáneamente y que se copien después del hecho.

Ver respuesta modelo

Debes implementar Replicación Síncrona (como un Galera Cluster o MySQL NDB Cluster). La replicación síncrona garantiza que el registro de contabilidad se confirme en todos los nodos simultáneamente antes de reconocer la transacción. Si utilizaras replicación asíncrona, una falla en el nodo podría resultar en la pérdida de transacciones recientes que aún no se habían copiado en la base de datos secundaria, violando el estricto requisito de cumplimiento.

Q2. Una red de campus universitario utiliza una configuración RADIUS Activo-Pasivo. Los estudiantes se quejan de que cuando el servidor principal entra en mantenimiento, sus laptops tardan casi 20 segundos en conectarse a la WiFi. Los puntos de acceso están configurados con un tiempo de espera de RADIUS de 3 segundos y 5 reintentos. ¿Cómo puedes reducir el retraso de conmutación por error sin cambiar la arquitectura del servidor?

Sugerencia: Calcula el tiempo de espera máximo basado en los temporizadores del NAD antes de que intente con el servidor secundario.

Ver respuesta modelo

Debes ajustar los temporizadores en los Dispositivos de Acceso a la Red (puntos de acceso). Actualmente, el AP espera 3 segundos y reintenta 5 veces, lo que resulta en un retraso de 18 segundos (3 segundos × 6 intentos totales) antes de pasar al servidor pasivo. Al reducir la configuración a un tiempo de espera de 2 segundos y 2 reintentos, el tiempo de detección de conmutación por error disminuye a 6 segundos, mejorando significativamente la experiencia del usuario durante las ventanas de mantenimiento.

Q3. Estás migrando una red corporativa multisitio de un servidor RADIUS local Activo-Pasivo a una plataforma Cloud RADIUS Activo-Activo. Durante la fase piloto, los dispositivos se autentican correctamente contra el Nodo Cloud A, pero cuando el balanceador de carga los enruta al Nodo Cloud B, los saludos de conexión (handshakes) EAP-TLS fallan. ¿Cuál es el error de configuración más probable?

Sugerencia: Considera lo que verifica el dispositivo cliente al establecer un túnel EAP seguro con un nuevo servidor.

Ver respuesta modelo

El problema más probable es una discrepancia en la Confianza del Certificado. En un clúster Activo-Activo, todos los nodos RADIUS deben presentar exactamente el mismo certificado de servidor (o certificados emitidos exactamente por la misma cadena de CA de confianza). Si el Nodo Cloud B presenta un certificado diferente en el que los dispositivos cliente no confían, el saludo de conexión EAP-TLS será rechazado por el cliente, lo que provocará que la autenticación falle a pesar de que el servidor funcione correctamente.

Continúe leyendo esta serie

Per-Device PSK por proveedor: comparación de iPSK, DPSK, MPSK y PPSK (y soporte de WPA3)

Una comparación exhaustiva de las implementaciones de per-device PSK en Cisco Meraki, HPE Aruba, Ruckus, Juniper Mist, Extreme, Fortinet y Ubiquiti UniFi. Conozca cómo WPA3-SAE afecta las estrategias de claves por dispositivo y cuándo implementar modos de transición en lugar de migrar a 802.1X.

Leer la guía →

Captive Portal Authentication Methods Compared

Esta guía de referencia técnica autorizada evalúa las ventajas y desventajas arquitectónicas, operativas y de cumplimiento de cinco métodos principales de autenticación de Captive Portal. Proporciona a los arquitectos de red, directores de TI y gerentes de marketing los datos cuantitativos y los marcos de decisión necesarios para equilibrar la fricción del registro de invitados con los requisitos de recopilación de datos en los establecimientos empresariales.

Leer la guía →

¿Qué es la autenticación por dirección MAC? Cuándo usarla y cuándo evitarla

Esta guía de referencia técnica autorizada cubre la autenticación por dirección MAC en entornos de WiFi empresariales: cómo funciona la autenticación MAC basada en RADIUS en la Capa 2, sus vulnerabilidades de seguridad inherentes (incluyendo el spoofing de MAC y el impacto de la aleatorización de MAC a nivel de sistema operativo) y los contextos operativos precisos donde sigue siendo una herramienta válida para gestionar dispositivos IoT y headless. Proporciona orientación de implementación práctica para gerentes de TI y arquitectos de redes en sectores como hotelería, retail, salud y espacios públicos, con ejemplos prácticos del mundo real, marcos de decisión y contexto de integración para la plataforma de analítica y WiFi de invitados de Purple.

Leer la guía →