Alta Disponibilidade do Servidor RADIUS: Ativo-Ativo vs Ativo-Passivo

Um guia de referência técnica definitivo para gestores de TI e arquitetos de rede que avaliam arquiteturas de alta disponibilidade RADIUS. Compara as implementações Ativo-Ativo e Ativo-Passivo, detalha os requisitos de replicação de bases de dados e explica como o Cloud RADIUS mitiga a latência de failover em espaços empresariais.

📖 6 min de leitura📝 1,648 palavras🔧 2 exemplos práticos❓ 3 perguntas de prática📚 8 definições principais

Ouça este guia

Ver transcrição do podcast

# Alta Disponibilidade do Servidor RADIUS: Ativo-Ativo vs Ativo-Passivo
## Purple Technical Briefing — Guião do Podcast (~10 minutos)

---

**PARTE 1 — INTRODUÇÃO E ENQUADRAMENTO (aprox. 1 minuto)**

Bem-vindo ao Purple Technical Briefing. Sou o vosso anfitrião e hoje vamos abordar uma das decisões de infraestrutura mais consequentes para qualquer organização que opere WiFi empresarial: a alta disponibilidade do servidor RADIUS.

Se é um arquiteto de rede ou diretor de TI responsável pela infraestrutura de autenticação num grupo hoteleiro, numa cadeia de retalho, num estádio ou numa instalação do setor público, este briefing dar-lhe-á os enquadramentos e os detalhes técnicos específicos de que necessita para tomar a decisão certa — e evitar os erros que causam falhas de autenticação no pior momento possível.

Permitam-me enquadrar o cenário. O RADIUS — Remote Authentication Dial-In User Service — é o guardião da sua rede. Sempre que um colaborador se liga via 802.1X, ou um convidado se autentica através do seu captive portal, o RADIUS é o motor que verifica as credenciais e autoriza o acesso. É a espinha dorsal das implementações empresariais IEEE 802.1X e WPA3. E, ao contrário da maioria dos serviços de TI que se degradam de forma controlada quando falham, o RADIUS é binário: ou funciona, ou ninguém entra na rede. Essa assimetria é o que torna a alta disponibilidade tão crítica.

---

**PARTE 2 — ANÁLISE TÉCNICA DETALHADA (aprox. 5 minutos)**

Comecemos pelos fundamentos. O RADIUS opera sobre UDP — tipicamente a porta 1812 para autenticação e 1813 para contabilização. A natureza sem estado do UDP é, na verdade, uma vantagem para o design de HA: como cada pedido de autenticação é autónomo, qualquer servidor num cluster pode processar qualquer pedido sem precisar de saber o que aconteceu antes. Esta é a propriedade arquitetural que torna as implementações ativo-ativo tão elegantes.

Existem dois modelos principais de alta disponibilidade que precisa de compreender.

**Ativo-Passivo** é a abordagem tradicional. Existe um servidor RADIUS primário que lida com todo o tráfego de autenticação e um servidor secundário em standby, que recebe dados replicados mas não processa pedidos. Quando o primário falha, o Network Access Device — o seu ponto de acesso, o seu switch, o seu gateway VPN — deteta a falha e redireciona o tráfego para o secundário.

Quanto tempo demora essa transição (failover)? É aqui que os detalhes importam. O NAS envia um pedido RADIUS e aguarda. O tempo limite (timeout) padrão do pacote é tipicamente de dois segundos. Depois disso, tenta novamente — normalmente três tentativas por servidor. Com dois servidores configurados, o tempo máximo de deteção de failover é de cerca de seis a doze segundos numa implementação bem otimizada. No pior cenário, com três servidores e temporizadores padrão, esse tempo pode estender-se até aos dezoito segundos. Para um hóspede de hotel que tenta ligar-se no check-in, ou um funcionário de retalho que tenta processar uma transação, essa é uma janela dolorosa.
**Ativo-Ativo** é a abordagem mais sofisticada e, para a maioria das implementações empresariais, é a escolha certa. Ambos — ou todos — os servidores RADIUS processam pedidos de autenticação em simultâneo. O tráfego é distribuído pelo cluster por rotação round-robin ou através de um balanceador de carga dedicado. Quando um nó falha, os nós restantes absorvem o seu tráfego imediatamente. Não existe atraso na deteção de failover porque não há failover no sentido tradicional: o balanceador de carga simplesmente deixa de enviar pedidos para o nó com problemas, normalmente no espaço de um a dois segundos, com base nos intervalos de verificação de estado.

Os benefícios de desempenho acumulam-se. Num local de grande dimensão — pense num estádio com capacidade para 60.000 pessoas ou num centro de conferências que acolhe uma grande exposição — pode registar milhares de pedidos de autenticação em simultâneo quando as portas se abrem ou quando ocorre um intervalo entre sessões. Um único servidor RADIUS, mesmo com boas especificações, pode tornar-se um gargalo. Um cluster ativo-ativo escala horizontalmente: adicione outro nó e adicionará capacidade proporcional.

Agora, falemos sobre a camada de base de dados, porque é aqui que muitas implementações se deparam com problemas. A autenticação RADIUS em si é maioritariamente stateless — o servidor verifica as credenciais num diretório e devolve um Aceitar ou Rejeitar. Mas a monitorização (accounting) do RADIUS é stateful: acompanha o início da sessão, atualizações intermédias e eventos de fim de sessão. Se utiliza a monitorização para faturação, registo de conformidade ou gestão de sessões, precisa que esses dados sejam consistentes em todos os nós.

A abordagem padrão consiste em apoiar o seu cluster RADIUS numa base de dados replicada. O FreeRADIUS, o servidor RADIUS de código aberto mais implementado no mundo, integra-se com o MySQL e o MariaDB. Para implementações ativo-ativo, tem duas opções principais: MySQL NDB Cluster, que fornece replicação multi-master síncrona com failover em menos de um segundo, ou Galera Cluster, que oferece uma replicação síncrona semelhante com uma gestão operacional ligeiramente mais simples. Ambas eliminam o risco de perda de dados em caso de falha do nó. A replicação assíncrona — primária-réplica padrão do MySQL — é mais barata, mas introduz um atraso de replicação que pode resultar na perda de registos de monitorização se a primária falhar antes de as alterações serem replicadas.

Deixe-me abordar a questão da distribuição geográfica, porque esta é cada vez mais relevante para operadores multi-site. Se gere uma cadeia de retalho com 200 lojas, ou um grupo hoteleiro com propriedades em vários países, a questão não é apenas "como torno o meu servidor RADIUS redundante?" — é "onde devem os meus servidores RADIUS estar localizados em relação aos meus pontos de acesso?"

O retorno (backhauling) do tráfego de autenticação de um site remoto para um centro de dados central introduz latência de WAN e um ponto único de falha no link de WAN. Se esse link falhar, o site remoto não conseguirá autenticar ninguém, independentemente de quão redundante seja o seu cluster RADIUS central. A solução passa por implementar instâncias RADIUS locais em cada site — o que cria uma sobrecarga operacional significativa — ou utilizar um serviço de cloud RADIUS com nós de extremidade (edge) distribuídos geograficamente.

As plataformas de cloud RADIUS resolvem o problema de HA ao nível da arquitetura. Em vez de construir e gerir uma infraestrutura redundante, o fornecedor opera o RADIUS em múltiplas zonas de disponibilidade e regiões. O failover entre nós ocorre de forma automática, normalmente em menos de um segundo, porque é gerido pelo balanceamento de carga interno da plataforma e não pelos temporizadores de nova tentativa do NAS. Os compromissos de SLA dos fornecedores de cloud RADIUS empresariais são tipicamente de 99,99% de tempo de atividade (uptime) — o que representa menos de 53 minutos de inatividade por ano.

Existe também aqui uma dimensão importante de conformidade. O PCI DSS exige controlos de autenticação fortes para ambientes de dados de titulares de cartões. O GDPR trata os registos de autenticação como dados pessoais, exigindo um tratamento adequado e controlos de residência de dados. Os fornecedores de cloud RADIUS detêm tipicamente certificações SOC 2 Tipo II e oferecem acordos de processamento de dados do GDPR com opções regionais de residência de dados. As implementações locais (on-premise) dão-lhe total controlo sobre a localização dos dados, o que é relevante em ambientes de saúde sob estruturas de governação de dados do NHS, ou em instalações governamentais com requisitos de soberania de dados.

---

**PARTE 3 — RECOMENDAÇÕES DE IMPLEMENTAÇÃO E ERROS COMUNS (aprox. 2 minutos)**

Permita-me apresentar-lhe dois cenários do mundo real que ilustram estes princípios na prática.

Primeiro: um grupo hoteleiro europeu com 45 propriedades em seis países. A sua equipa de TI de três engenheiros executava o FreeRADIUS em máquinas virtuais em cada propriedade — 45 instâncias separadas para atualizar, monitorizar e manter. Quando um certificado TLS expirou numa propriedade, causou uma interrupção total do WiFi dos hóspedes durante uma grande conferência. A correção exigiu que um engenheiro acedesse remotamente para renovar manualmente o certificado — um processo que demorou 40 minutos enquanto os hóspedes não conseguiam ligar-se.

Após a migração para um serviço de cloud RADIUS com gestão centralizada de políticas, a equipa eliminou completamente a manutenção por site. A rotação de certificados passou a ser automática. Os três engenheiros recuperaram cerca de 40 por cento do tempo anteriormente despendido em operações de RADIUS. Mais importante ainda, a arquitetura ativo-ativo da plataforma em múltiplas regiões de cloud fez com que a falha de um único nó — que anteriormente teria causado uma interrupção no site — passasse a ser um não-evento.

Segundo cenário: um estádio desportivo nacional que acolhe 60.000 adeptos para um grande evento. A equipa de rede tinha implementado uma configuração RADIUS ativo-passivo com um servidor primário e um standby ativo. Durante um teste de carga pré-evento, descobriram que o servidor primário estava a ficar saturado durante o pico de autenticação quando as portas abriam — processando 8.000 pedidos de autenticação por minuto. O secundário passivo estava inativo enquanto o primário tinha dificuldades.

A solução foi reconfigurar os dispositivos NAS para utilizarem o balanceamento de carga round-robin em ambos os servidores, convertendo eficazmente a implementação para ativa-ativa. O rendimento de autenticação duplicou imediatamente. Adicionaram também um terceiro servidor para fornecer margem para o pico de carga e configuraram a replicação do Galera Cluster para a base de dados de accounting. O resultado foi uma implementação que conseguia absorver a perda de qualquer nó individual sem qualquer impacto visível para o utilizador.

Agora, as armadilhas. O erro mais comum é tratar o servidor RADIUS secundário como uma cópia de segurança de configurar e esquecer. As configurações divergem. Os certificados expiram no secundário enquanto o primário está a funcionar bem. Quando o primário eventualmente falha e o secundário assume o controlo, este também falha — por uma razão completamente diferente. A solução é simples: teste a sua tolerância a falhas regularmente, pelo menos trimestralmente, e trate ambos os nós como sistemas de produção.

A segunda armadilha é negligenciar o atraso de replicação da base de dados. Se estiver a utilizar replicação assíncrona e o seu nó de base de dados primário falhar, poderá perder registos de accounting de sessões que estavam ativas no momento da falha. Para a conformidade com o PCI DSS, esta é uma lacuna grave. Utilize replicação síncrona — Galera ou NDB — para qualquer implementação em que a integridade dos dados de accounting seja um requisito de conformidade.

---

**PARTE 4 — PERGUNTAS E RESPOSTAS RÁPIDAS (aprox. 1 minuto)**

Deixe-me responder às perguntas que ouço com mais frequência por parte dos arquitetos de rede.

"Qual é a configuração mínima viável de HA?" Dois servidores RADIUS com failover ativo-passivo, sincronização de segredo partilhado e um backend de base de dados replicado. Esse é o seu limite mínimo. Para qualquer valor acima de 500 utilizadores concorrentes, mude para ativo-ativo.

"Posso utilizar um balanceador de carga de hardware para RADIUS?" Sim, mas o RADIUS utiliza UDP e muitos balanceadores de carga estão otimizados para TCP. Certifique-se de que o seu balanceador de carga suporta o balanceamento de carga UDP com verificações de estado. O HAProxy Enterprise possui um módulo UDP RADIUS dedicado. O F5 BIG-IP lida com isso nativamente.

"Como posso gerir a confiança de certificados EAP num cluster de HA?" Todos os nós devem apresentar o mesmo certificado de servidor ou, no mínimo, certificados da mesma cadeia de CA. Os clientes validam o certificado do servidor durante os handshakes EAP-TLS e PEAP — se os nós apresentarem certificados diferentes, verá falhas de autenticação após o failover.

"O RADIUS na nuvem funciona com o Active Directory local?" Sim, através de um conetor leve ou proxy LDAP que consulta o seu AD local sem o expor diretamente à internet. Este é o padrão de integração padrão para ambientes híbridos.

---

**PARTE 5 — RESUMO E PRÓXIMOS PASSOS (aprox. 1 minuto)**

Deixe-me concluir com as principais decisões que precisa de tomar.

Se estiver a gerir menos de 500 utilizadores simultâneos num único local com uma equipa estável para gerir a infraestrutura, o modelo ativo-passivo com um procedimento de failover bem testado é uma escolha defensável. Mantenha-o simples, teste-o regularmente e utilize replicação síncrona de base de dados.

Se estiver a gerir um património multi-local, um espaço de alta densidade ou se a largura de banda da sua equipa for limitada, o modelo ativo-ativo é a arquitetura correta — e o cloud RADIUS é o caminho mais rápido para lá chegar sem construir a infraestrutura por si mesmo.

Independentemente do modelo que escolher, os princípios são os mesmos: distribuir em vez de duplicar, automatizar as decisões de failover e testar os seus cenários de falha antes que estes o testem a si.

Para saber mais sobre como a plataforma da Purple lida com a autenticação RADIUS à escala — incluindo a integração com 802.1X, WPA3 enterprise e portais de WiFi de convidados — visite purple.ai. Até à próxima.

---
*Fim do guião. Tempo aproximado de leitura a 150 palavras por minuto: 10 minutos.*

Principais Conclusões

✓A alta disponibilidade do RADIUS é crítica porque as falhas de autenticação bloqueiam imediatamente todo o acesso à rede para utilizadores e dispositivos.
✓As configurações Ativo-Passivo são mais simples, mas introduzem um atraso de failover de 6 a 18 segundos ditado pelos temporizadores de tentativa do Dispositivo de Acesso à Rede.
✓As arquiteturas Ativo-Ativo processam pedidos simultaneamente, proporcionando failover instantâneo e escalabilidade horizontal para ambientes de alta densidade.
✓Embora a autenticação RADIUS seja stateless (sem estado), a contabilidade (accounting) é stateful (com estado) e requer replicação síncrona de base de dados (como o Galera) para evitar a perda de dados.
✓As plataformas Cloud RADIUS abstraem a complexidade de alta disponibilidade fornecendo uma infraestrutura Ativo-Ativo globalmente distribuída e de escala automática.
✓A divergência de configuração (configuration drift) e os certificados TLS incompatíveis são as causas mais comuns de falha durante eventos de failover de RADIUS.

📚 Parte da nossa série principal: Enterprise WiFi Security Guide →

Resumo Executivo

Para redes empresariais, a autenticação é binária: ou funciona perfeitamente, ou as operações comerciais cessam por completo. O RADIUS (Remote Authentication Dial-In User Service) atua como o controlador de acesso crítico para implementações de IEEE 802.1X, WPA3 enterprise e Guest WiFi em recintos modernos. Ao contrário dos serviços de aplicação que se degradam graciosamente sob carga, uma falha de RADIUS bloqueia imediatamente o acesso à rede de utilizadores, terminais de ponto de venda e dispositivos operacionais.

Este guia de referência técnica avalia os modelos de arquitetura para a implementação de infraestrutura RADIUS de elevada disponibilidade. Especificamente, contrasta as configurações Ativo-Passivo tradicionais com clusters Ativo-Ativo modernos. Para gestores de TI, arquitetos de rede e diretores de operações de recintos que gerem ambientes de alta densidade como o Retalho , a Hotelaria e estádios, compreender estas estratégias de failover, mecânicas de balanceamento de carga e requisitos de replicação de base de dados é essencial.

Além disso, este guia analisa como as plataformas Cloud RADIUS abstraem a complexidade da elevada disponibilidade, fornecendo failover automático e escalabilidade elástica sem o fardo operacional de manter infraestrutura local redundante. Ao aplicar estas boas práticas neutras em termos de fornecedor, as equipas de engenharia podem conceber arquiteturas de autenticação que eliminam pontos únicos de falha e cumprem os rigorosos Acordos de Nível de Serviço (SLAs) de tempo de atividade.

Análise Técnica Detalhada: Compreender a Arquitetura RADIUS

O RADIUS opera como um protocolo cliente-servidor através de UDP, utilizando tipicamente a porta 1812 para autenticação e a porta 1813 para contabilização, conforme definido no RFC 2865 e RFC 2866. A natureza stateless dos pedidos de autenticação UDP é uma vantagem estrutural para o design de elevada disponibilidade. Dado que cada pacote Access-Request contém todas as credenciais e parâmetros necessários, qualquer servidor RADIUS dentro de um cluster pode processar qualquer pedido de forma independente, sem necessitar de sincronização de estado complexa para a própria fase de autenticação.

Arquitetura Ativo-Passivo

Numa implementação Ativo-Passivo (ou principal-reserva), um único servidor RADIUS processa todo o tráfego de entrada de autenticação e contabilização. Um servidor secundário permanece online mas inativo, recebendo atualizações de replicação de base de dados mas não respondendo ativamente a Dispositivos de Acesso à Rede (NADs), tais como pontos de acesso, switches ou gateways VPN.

Quando o servidor primário falha, o NAD deteta o timeout e redireciona os pedidos subsequentes para o servidor secundário. O tempo de deteção de failover depende inteiramente dos temporizadores de configuração do NAD. Um NAD típico envia um pedido RADIUS e aguarda por um timeout de pacote padrão (frequentemente dois segundos). Se nenhuma resposta for recebida, ele tenta novamente. Com uma configuração padrão de três tentativas por servidor, o NAD pode aguardar até seis segundos antes de declarar o servidor primário como indisponível e efetuar o failover para o secundário. Em ambientes com três servidores configurados, esta janela de failover pode estender-se até dezoito segundos. Para um local de Hospitality movimentado ou um ambiente de Retail que processa transações, este atraso representa uma interrupção percetível no serviço.

Arquitetura Ativo-Ativo

Por outro lado, uma arquitetura Ativo-Ativo distribui a carga de autenticação por múltiplos servidores RADIUS operacionais em simultâneo. O tráfego é encaminhado para o cluster através de uma configuração round-robin nos NADs ou por meio de um balanceador de carga dedicado.

Este modelo elimina o atraso de deteção de failover inerente às configurações Ativo-Passivo. Se um nó falhar, o balanceador de carga (ou os NADs que utilizam round-robin) simplesmente deixa de encaminhar tráfego para o servidor que não responde, normalmente dentro de um a dois segundos com base nos intervalos de verificação de integridade (health-checks). Os restantes nós ativos absorvem o tráfego instantaneamente. Além disso, os clusters Ativo-Ativo escalam horizontalmente; adicionar capacidade para eventos de alta densidade requer apenas o aprovisionamento de nós adicionais no cluster.

O Desafio da Replicação de Base de Dados

Embora a autenticação RADIUS não registe estados (stateless), a monitorização RADIUS (accounting) regista inerentemente estados (stateful). Rastreia o início da sessão (Start), a utilização contínua (Interim-Update) e a cessação (Stop). Para locais que utilizam WiFi Analytics ou sistemas de faturação, estes dados de monitorização devem permanecer consistentes em todos os nós.

Suportar um cluster RADIUS com uma base de dados replicada (como MySQL ou MariaDB integrada com FreeRADIUS) é obrigatório para uma alta disponibilidade robusta. Para implementações Ativo-Ativo, é necessária uma replicação multi-master síncrona — como Galera Cluster ou MySQL NDB Cluster. A replicação síncrona garante que um registo de monitorização é gravado em todos os nós em simultâneo, evitando a perda de dados se um nó falhar. A replicação assíncrona tradicional, frequentemente utilizada em configurações Ativo-Passivo, introduz um atraso de replicação (lag). Se o nó primário falhar antes de o secundário receber a atualização, os dados da sessão ativa são permanentemente perdidos, o que pode violar quadros de conformidade como o PCI DSS.

Guia de Implementação: Nuvem vs Local (On-Premise)

A decisão arquitetural vai além de como agrupar servidores; envolve o local onde esses servidores residem. Para operadores multi-site, o backhaul do tráfego de autenticação para um datacenter local centralizado introduz latência de WAN e cria um ponto único de falha na ligação WAN.

Plataformas Cloud RADIUS

Os serviços Cloud RADIUS resolvem os desafios de distribuição geográfica ao alojar a infraestrutura de autenticação em múltiplas zonas de disponibilidade globais. Quando um utilizador se liga num local remoto, o pedido é encaminhado para o nó de edge cloud mais próximo, minimizando a latência.

As plataformas cloud utilizam inerentemente arquiteturas Ativo-Ativo. O failover entre zonas de disponibilidade é gerido automaticamente pelo balanceamento de carga interno do fornecedor, abstraindo totalmente a complexidade para a equipa de engenharia do cliente. Este modelo geralmente oferece SLAs de 99,99% de tempo de atividade e elimina a necessidade de gestão manual de certificados, aplicação de patches no sistema operativo e ajuste de replicação de base de dados. Para organizações que implementam Wayfinding ou Sensors em campus distribuídos, a autenticação alojada na cloud garante a aplicação consistente de políticas sem dependências de hardware local.

Considerações de Implementação Local (On-Premise)

As organizações que operam em setores altamente regulados — como áreas específicas de Saúde ou ambientes governamentais — podem exigir implementações locais devido a mandatos estritos de soberania de dados. Nestes cenários, a implementação de um cluster FreeRADIUS Ativo-Ativo com replicação síncrona Galera oferece o mais alto nível de resiliência.

No entanto, as equipas de engenharia devem ter em conta a sobrecarga operacional. A gestão de certificados TLS em múltiplos nós, a garantia de consistência de configuração e a monitorização ativa da integridade da replicação da base de dados exigem recursos administrativos dedicados. Os balanceadores de carga de hardware devem ser configurados especificamente para suportar tráfego UDP com verificações de integridade RADIUS adequadas, uma vez que muitos balanceadores de carga padrão são otimizados exclusivamente para tráfego TCP HTTP/HTTPS.

Melhores Práticas para Alta Disponibilidade RADIUS

Distribuir em vez de Duplicar: Para implementações que excedam 500 utilizadores simultâneos, priorize arquiteturas Ativo-Ativo em vez de configurações Ativo-Passivo para maximizar a taxa de transferência e minimizar a latência de failover.
Implementar Replicação Síncrona: Proteja os dados de faturação com estado (stateful accounting) utilizando a replicação síncrona de base de dados multi-master (por exemplo, Galera Cluster) em vez de modelos assíncronos de réplica primária.
Padronizar a Confiança de Certificados: Num cluster Ativo-Ativo, certifique-se de que todos os nós apresentam o certificado de servidor idêntico ou certificados da exata mesma cadeia de Autoridade de Certificação (CA). As discrepâncias farão com que os handshakes EAP-TLS e PEAP falhem durante a rotação de nós.
Ajustar os Temporizadores NAD: Otimize os temporizadores de repetição e limite de tempo (timeout) do RADIUS nos seus Dispositivos de Acesso à Rede (NAD). Um timeout de dois segundos com duas repetições oferece um equilíbrio entre a deteção rápida de failover e a prevenção de failover prematuro durante pequenos congestionamentos de rede.
Testar Cenários de Falha: Trate os nós secundários como sistemas de produção. Simule regularmente falhas de nós, dessincronização de bases de dados e quedas de ligações WAN para validar se os mecanismos automatizados de failover funcionam conforme projetado.

Resolução de Problemas e Mitigação de Riscos

O modo de falha mais comum em alta disponibilidade RADIUS é o desvio de configuração (configuration drift). Em configurações Ativo-Passivo, os administradores atualizam frequentemente as políticas ou renovam os certificados no nó primário, mas negligenciam o secundário. Quando ocorre um evento de failover, o nó secundário rejeita o tráfego legítimo devido a credenciais expiradas ou políticas desatualizadas.

Para mitigar este risco, implemente ferramentas de gestão de configuração (como Ansible ou Terraform) para aplicar alterações de forma simétrica em todos os nós. Para a gestão de certificados, utilize protocolos de renovação automatizados (como ACME) configurados para distribuir o certificado atualizado simultaneamente por todo o cluster.

Outro risco de relevo é a configuração incorreta do balanceador de carga. Se um balanceador de carga não realizar verificações de integridade (health checks) na camada de aplicação (especificamente verificando a capacidade de resposta da porta UDP 1812), poderá continuar a encaminhar tráfego para um nó onde o sistema operativo está a funcionar, mas o daemon RADIUS falhou. Certifique-se de que as verificações de integridade validam explicitamente a disponibilidade do serviço RADIUS.

ROI e Impacto no Negócio

O retorno do investimento para uma alta disponibilidade RADIUS robusta é medido principalmente através da mitigação de riscos e da eficiência operacional. As interrupções de autenticação resultam em perdas imediatas de produtividade para os colaboradores e em graves danos de reputação para locais públicos.

Ao transitar de implementações manuais de servidor único para arquiteturas automatizadas Ativo-Ativo (particularmente através do Cloud RADIUS), as organizações recuperam horas significativas de engenharia anteriormente dedicadas à manutenção de rotina. Esta eficiência operacional permite que as equipas de rede se concentrem em iniciativas estratégicas, tais como implementar Os Benefícios Centrais do SD WAN para Empresas Modernas ou otimizar a cobertura de alta densidade, em vez de combater falhas de autenticação. Em última análise, uma autenticação fiável é a camada fundamental sobre a qual todos os serviços de rede subsequentes dependem.

Definições Principais

Arquitetura Ativo-Ativo

Um design de alta disponibilidade onde múltiplos servidores RADIUS processam pedidos de autenticação em simultâneo, distribuindo a carga e fornecendo redundância imediata (failover) sem atrasos de deteção.

Essencial para recintos de elevada densidade (estádios, grandes superfícies comerciais) onde um único servidor não consegue lidar com picos de autenticação.

Arquitetura Ativo-Passivo

Um modelo de redundância no qual um servidor primário lida com todo o tráfego e um servidor secundário permanece inativo em standby até que o primário falhe.

Adequada para implementações mais pequenas e sensíveis a custos, mas introduz um atraso de failover de 6 a 18 segundos enquanto o dispositivo de acesso à rede deteta a falha.

Replicação Síncrona

Um método de replicação de bases de dados onde os dados são gravados em todos os nós de um cluster em simultâneo antes de a transação ser considerada concluída.

Obrigatória para bases de dados de contabilização (accounting) RADIUS em modo Ativo-Ativo (como o Galera Cluster) para evitar a perda de dados e garantir a conformidade.

Replicação Assíncrona

Um método de replicação de bases de dados onde o nó primário grava os dados e, posteriormente, os copia para os nós secundários, introduzindo um ligeiro atraso (lag).

Frequentemente utilizada em configurações Ativo-Passivo, mas acarreta o risco de perda de registos de contabilização recentes se o nó primário falhar abruptamente.

Dispositivo de Acesso à Rede (NAD)

O componente de hardware (como um ponto de acesso WiFi, switch ou gateway VPN) que solicita a autenticação ao servidor RADIUS em nome do utilizador.

Os temporizadores internos de nova tentativa (retry) e limite de tempo (timeout) do NAD ditam a rapidez com que ocorre um failover Ativo-Passivo.

Protocolo sem Estado (Stateless)

Um protocolo de comunicação que trata cada pedido como uma transação independente, não relacionada com qualquer pedido anterior.

A autenticação RADIUS através de UDP é sem estado (stateless), permitindo que os balanceadores de carga encaminhem qualquer pedido para qualquer servidor ativo de forma transparente.

Desvio de Configuração (Configuration Drift)

O fenómeno em que os servidores secundários ou de cópia de segurança ficam dessincronizados do servidor primário em termos de políticas, atualizações ou certificados ao longo do tempo.

A principal causa de falha em implementações RADIUS Ativo-Passivo quando o nó secundário é forçado a assumir o controlo.

Cloud RADIUS

Um serviço de autenticação gerido, alojado numa infraestrutura de cloud distribuída globalmente, fornecendo redundância Ativo-Ativo integrada e escalabilidade automática.

Substitui a necessidade de as equipas de TI criarem, corrigirem e monitorizarem manualmente servidores RADIUS locais (on-premise) redundantes.

Exemplos Práticos

Um grupo hoteleiro europeu gere 45 propriedades em seis países. Atualmente, executam máquinas virtuais FreeRADIUS independentes em cada propriedade. Um certificado TLS expirado recentemente num dos locais causou uma interrupção total do WiFi dos hóspedes durante uma grande conferência. Como deverão redesenhar a sua arquitetura de autenticação para evitar interrupções localizadas e reduzir os custos de manutenção?

O grupo hoteleiro deve migrar de instâncias FreeRADIUS locais de nó único para uma plataforma Cloud RADIUS centralizada que utilize uma arquitetura Ativo-Ativo. Ao tirar partido de um fornecedor de cloud com nós de extremidade geograficamente distribuídos, os pedidos de autenticação de cada propriedade são encaminhados para o nó regional mais próximo, minimizando a latência. A gestão de políticas centralizada permite que a equipa de TI defina regras de autenticação uma única vez e as aplique globalmente. O fornecedor de cloud lida automaticamente com a rotação de certificados TLS, atualizações do sistema operativo e replicação de bases de dados.

Comentário do Examinador: Esta abordagem elimina 45 pontos únicos de falha e remove a carga operacional de manutenção por local. A arquitetura de cloud Ativo-Ativo garante que, se um nó regional específico apresentar problemas, o tráfego é encaminhado de forma automática e instantânea para a zona de disponibilidade mais próxima, resultando em zero tempo de inatividade percebido pelos hóspedes.

Um estádio de desporto nacional está a preparar-se para um evento com 60.000 espetadores. A sua configuração RADIUS atual é Ativo-Passivo. Durante os testes de carga, o servidor principal ficou saturado ao processar 8.000 pedidos de autenticação por minuto quando as portas abriram, causando atrasos graves na ligação, enquanto o servidor secundário permaneceu completamente inativo. Como podem otimizar esta implementação?

A equipa de engenharia de rede deve converter a implementação de Ativo-Passivo para Ativo-Ativo. Primeiro, devem reconfigurar os Dispositivos de Acesso à Rede (NADs) do estádio para utilizar o equilíbrio de carga round-robin em ambos os servidores RADIUS, duplicando instantaneamente a sua capacidade de processamento de autenticação. Segundo, devem provisionar um terceiro nó RADIUS para fornecer a margem necessária para picos de utilização. Finalmente, para garantir que os dados de contabilização permanecem consistentes em todos os três nós ativos, devem implementar uma solução de replicação de base de dados multi-master síncrona, como o Galera Cluster.

Comentário do Examinador: A conversão para Ativo-Ativo dimensiona horizontalmente a capacidade de processamento, abordando diretamente o estrangulamento. A utilização de replicação síncrona de base de dados é crítica neste cenário; garante que os dados de contabilização de sessão não se perdem se um nó falhar durante o afluxo massivo de utilizadores, o que é essencial para análises precisas e conformidade.

Perguntas de Prática

Q1. O seu cliente de retalho empresarial necessita de uma solução RADIUS de alta disponibilidade para os seus terminais de ponto de venda. Eles têm requisitos estritos de conformidade PCI DSS que ditam que absolutamente nenhum dado de sessão de contabilidade (accounting) pode ser perdido durante uma falha de servidor (failover). Que estratégia de replicação de base de dados deve implementar para o backend do RADIUS?

Dica: Considere a diferença entre os dados serem gravados simultaneamente versus dados copiados após o facto.

Ver resposta modelo

Deve implementar Replicação Síncrona (como um Galera Cluster ou MySQL NDB Cluster). A replicação síncrona garante que o registo de contabilidade é confirmado em todos os nós simultaneamente antes de validar a transação. Se utilizasse replicação Assíncrona, uma falha de nó poderia resultar na perda de transações recentes que ainda não tinham sido copiadas para a base de dados secundária, violando o requisito estrito de conformidade.

Q2. A rede de um campus universitário utiliza uma configuração RADIUS Ativo-Passivo. Os estudantes queixam-se de que, quando o servidor primário entra em manutenção, demora quase 20 segundos para que os seus portáteis se liguem ao WiFi. Os pontos de acesso estão configurados com um timeout de RADIUS de 3 segundos e 5 tentativas. Como pode reduzir o atraso de failover sem alterar a arquitetura do servidor?

Dica: Calcule o tempo máximo de espera com base nos temporizadores do NAD antes de tentar o servidor secundário.

Ver resposta modelo

Deve ajustar os temporizadores nos Dispositivos de Acesso à Rede (pontos de acesso). Atualmente, o AP aguarda 3 segundos e tenta 5 vezes, resultando num atraso de 18 segundos (3 segundos × 6 tentativas no total) antes de falhar para o servidor passivo. Ao reduzir a configuração para um timeout de 2 segundos e 2 tentativas, o tempo de deteção de failover cai para 6 segundos, melhorando significativamente a experiência do utilizador durante as janelas de manutenção.

Q3. Está a migrar uma rede corporativa multi-site de um servidor RADIUS on-premise Ativo-Passivo para uma plataforma Cloud RADIUS Ativo-Ativo. Durante a fase piloto, os dispositivos autenticam-se com sucesso no Nó de Cloud A, mas quando o balanceador de carga os encaminha para o Nó de Cloud B, os handshakes EAP-TLS falham. Qual é o erro de configuração mais provável?

Dica: Considere o que o dispositivo cliente verifica ao estabelecer um túnel EAP seguro com um novo servidor.

Ver resposta modelo

O problema mais provável é uma incompatibilidade de Confiança de Certificado (Certificate Trust mismatch). Num cluster Ativo-Ativo, todos os nós RADIUS devem apresentar exatamente o mesmo certificado de servidor (ou certificados emitidos exatamente pela mesma cadeia de CA fidedigna). Se o Nó de Cloud B estiver a apresentar um certificado diferente em que os dispositivos cliente não confiam, o handshake EAP-TLS será rejeitado pelo cliente, fazendo com que a autenticação falhe, apesar de o servidor estar a funcionar corretamente.

Continue a ler esta série

Configuring RADIUS Authentication for Guest and Staff WiFi Networks

Este guia de referência técnica descreve a arquitetura, configuração e implementação de autenticação RADIUS para redes WiFi empresariais de convidados e funcionários. Fornece aos arquitetos de rede e gestores de TI os protocolos exatos, normas de segurança e metodologias de resolução de problemas necessários para construir sistemas de controlo de acesso sem fios seguros e escaláveis.

Passpoint e OpenRoaming: Guia Completo

Este guia de referência técnica fornece uma análise abrangente das frameworks Passpoint (Hotspot 2.0) e WBA OpenRoaming em redes WiFi corporativas. Detalha os protocolos de autenticação subjacentes, componentes de arquitetura e estratégias de implementação necessárias para estabelecer uma conectividade de convidados segura e sem atritos. Os arquitetos de rede e líderes de TI aprenderão a desenhar, implementar e resolver problemas destes padrões para eliminar as barreiras de início de sessão manual, mantendo simultaneamente uma segurança de nível empresarial.

Como Implementar SCEP para Integração Segura de BYOD e Redes no Ensino Superior

Este guia técnico fornece aos arquitetos de rede e gestores de TI um plano neutro em termos de fornecedor para implementar a emissão de certificados baseada em SCEP para proteger as redes dos campus do ensino superior. Detalha como migrar de PEAP baseado em palavra-passe para 802.1X EAP-TLS, automatizar a integração de BYOD e impor uma segmentação robusta de VLAN.