Alta Disponibilidade do Servidor RADIUS: Ativo-Ativo vs Ativo-Passivo
Um guia de referência técnica definitivo para gestores de TI e arquitetos de rede que avaliam arquiteturas de alta disponibilidade RADIUS. Compara as implementações Ativo-Ativo e Ativo-Passivo, detalha os requisitos de replicação de bases de dados e explica como o Cloud RADIUS mitiga a latência de failover em espaços empresariais.
Ouça este guia
Ver transcrição do podcast
- Resumo Executivo
- Análise Técnica Detalhada: Compreender a Arquitetura RADIUS
- Arquitetura Ativo-Passivo
- Arquitetura Ativo-Ativo
- O Desafio da Replicação de Base de Dados
- Guia de Implementação: Nuvem vs Local (On-Premise)
- Plataformas Cloud RADIUS
- Considerações de Implementação Local (On-Premise)
- Melhores Práticas para Alta Disponibilidade RADIUS
- Resolução de Problemas e Mitigação de Riscos
- ROI e Impacto no Negócio

Resumo Executivo
Para redes empresariais, a autenticação é binária: ou funciona perfeitamente, ou as operações comerciais cessam por completo. O RADIUS (Remote Authentication Dial-In User Service) atua como o controlador de acesso crítico para implementações de IEEE 802.1X, WPA3 enterprise e Guest WiFi em recintos modernos. Ao contrário dos serviços de aplicação que se degradam graciosamente sob carga, uma falha de RADIUS bloqueia imediatamente o acesso à rede de utilizadores, terminais de ponto de venda e dispositivos operacionais.
Este guia de referência técnica avalia os modelos de arquitetura para a implementação de infraestrutura RADIUS de elevada disponibilidade. Especificamente, contrasta as configurações Ativo-Passivo tradicionais com clusters Ativo-Ativo modernos. Para gestores de TI, arquitetos de rede e diretores de operações de recintos que gerem ambientes de alta densidade como o Retalho , a Hotelaria e estádios, compreender estas estratégias de failover, mecânicas de balanceamento de carga e requisitos de replicação de base de dados é essencial.
Além disso, este guia analisa como as plataformas Cloud RADIUS abstraem a complexidade da elevada disponibilidade, fornecendo failover automático e escalabilidade elástica sem o fardo operacional de manter infraestrutura local redundante. Ao aplicar estas boas práticas neutras em termos de fornecedor, as equipas de engenharia podem conceber arquiteturas de autenticação que eliminam pontos únicos de falha e cumprem os rigorosos Acordos de Nível de Serviço (SLAs) de tempo de atividade.
Análise Técnica Detalhada: Compreender a Arquitetura RADIUS
O RADIUS opera como um protocolo cliente-servidor através de UDP, utilizando tipicamente a porta 1812 para autenticação e a porta 1813 para contabilização, conforme definido no RFC 2865 e RFC 2866. A natureza stateless dos pedidos de autenticação UDP é uma vantagem estrutural para o design de elevada disponibilidade. Dado que cada pacote Access-Request contém todas as credenciais e parâmetros necessários, qualquer servidor RADIUS dentro de um cluster pode processar qualquer pedido de forma independente, sem necessitar de sincronização de estado complexa para a própria fase de autenticação.
Arquitetura Ativo-Passivo
Numa implementação Ativo-Passivo (ou principal-reserva), um único servidor RADIUS processa todo o tráfego de entrada de autenticação e contabilização. Um servidor secundário permanece online mas inativo, recebendo atualizações de replicação de base de dados mas não respondendo ativamente a Dispositivos de Acesso à Rede (NADs), tais como pontos de acesso, switches ou gateways VPN.
Quando o servidor primário falha, o NAD deteta o timeout e redireciona os pedidos subsequentes para o servidor secundário. O tempo de deteção de failover depende inteiramente dos temporizadores de configuração do NAD. Um NAD típico envia um pedido RADIUS e aguarda por um timeout de pacote padrão (frequentemente dois segundos). Se nenhuma resposta for recebida, ele tenta novamente. Com uma configuração padrão de três tentativas por servidor, o NAD pode aguardar até seis segundos antes de declarar o servidor primário como indisponível e efetuar o failover para o secundário. Em ambientes com três servidores configurados, esta janela de failover pode estender-se até dezoito segundos. Para um local de Hospitality movimentado ou um ambiente de Retail que processa transações, este atraso representa uma interrupção percetível no serviço.
Arquitetura Ativo-Ativo
Por outro lado, uma arquitetura Ativo-Ativo distribui a carga de autenticação por múltiplos servidores RADIUS operacionais em simultâneo. O tráfego é encaminhado para o cluster através de uma configuração round-robin nos NADs ou por meio de um balanceador de carga dedicado.

Este modelo elimina o atraso de deteção de failover inerente às configurações Ativo-Passivo. Se um nó falhar, o balanceador de carga (ou os NADs que utilizam round-robin) simplesmente deixa de encaminhar tráfego para o servidor que não responde, normalmente dentro de um a dois segundos com base nos intervalos de verificação de integridade (health-checks). Os restantes nós ativos absorvem o tráfego instantaneamente. Além disso, os clusters Ativo-Ativo escalam horizontalmente; adicionar capacidade para eventos de alta densidade requer apenas o aprovisionamento de nós adicionais no cluster.
O Desafio da Replicação de Base de Dados
Embora a autenticação RADIUS não registe estados (stateless), a monitorização RADIUS (accounting) regista inerentemente estados (stateful). Rastreia o início da sessão (Start), a utilização contínua (Interim-Update) e a cessação (Stop). Para locais que utilizam WiFi Analytics ou sistemas de faturação, estes dados de monitorização devem permanecer consistentes em todos os nós.
Suportar um cluster RADIUS com uma base de dados replicada (como MySQL ou MariaDB integrada com FreeRADIUS) é obrigatório para uma alta disponibilidade robusta. Para implementações Ativo-Ativo, é necessária uma replicação multi-master síncrona — como Galera Cluster ou MySQL NDB Cluster. A replicação síncrona garante que um registo de monitorização é gravado em todos os nós em simultâneo, evitando a perda de dados se um nó falhar. A replicação assíncrona tradicional, frequentemente utilizada em configurações Ativo-Passivo, introduz um atraso de replicação (lag). Se o nó primário falhar antes de o secundário receber a atualização, os dados da sessão ativa são permanentemente perdidos, o que pode violar quadros de conformidade como o PCI DSS.
Guia de Implementação: Nuvem vs Local (On-Premise)
A decisão arquitetural vai além de como agrupar servidores; envolve o local onde esses servidores residem. Para operadores multi-site, o backhaul do tráfego de autenticação para um datacenter local centralizado introduz latência de WAN e cria um ponto único de falha na ligação WAN.
Plataformas Cloud RADIUS
Os serviços Cloud RADIUS resolvem os desafios de distribuição geográfica ao alojar a infraestrutura de autenticação em múltiplas zonas de disponibilidade globais. Quando um utilizador se liga num local remoto, o pedido é encaminhado para o nó de edge cloud mais próximo, minimizando a latência.

As plataformas cloud utilizam inerentemente arquiteturas Ativo-Ativo. O failover entre zonas de disponibilidade é gerido automaticamente pelo balanceamento de carga interno do fornecedor, abstraindo totalmente a complexidade para a equipa de engenharia do cliente. Este modelo geralmente oferece SLAs de 99,99% de tempo de atividade e elimina a necessidade de gestão manual de certificados, aplicação de patches no sistema operativo e ajuste de replicação de base de dados. Para organizações que implementam Wayfinding ou Sensors em campus distribuídos, a autenticação alojada na cloud garante a aplicação consistente de políticas sem dependências de hardware local.
Considerações de Implementação Local (On-Premise)
As organizações que operam em setores altamente regulados — como áreas específicas de Saúde ou ambientes governamentais — podem exigir implementações locais devido a mandatos estritos de soberania de dados. Nestes cenários, a implementação de um cluster FreeRADIUS Ativo-Ativo com replicação síncrona Galera oferece o mais alto nível de resiliência.
No entanto, as equipas de engenharia devem ter em conta a sobrecarga operacional. A gestão de certificados TLS em múltiplos nós, a garantia de consistência de configuração e a monitorização ativa da integridade da replicação da base de dados exigem recursos administrativos dedicados. Os balanceadores de carga de hardware devem ser configurados especificamente para suportar tráfego UDP com verificações de integridade RADIUS adequadas, uma vez que muitos balanceadores de carga padrão são otimizados exclusivamente para tráfego TCP HTTP/HTTPS.
Melhores Práticas para Alta Disponibilidade RADIUS
- Distribuir em vez de Duplicar: Para implementações que excedam 500 utilizadores simultâneos, priorize arquiteturas Ativo-Ativo em vez de configurações Ativo-Passivo para maximizar a taxa de transferência e minimizar a latência de failover.
- Implementar Replicação Síncrona: Proteja os dados de faturação com estado (stateful accounting) utilizando a replicação síncrona de base de dados multi-master (por exemplo, Galera Cluster) em vez de modelos assíncronos de réplica primária.
- Padronizar a Confiança de Certificados: Num cluster Ativo-Ativo, certifique-se de que todos os nós apresentam o certificado de servidor idêntico ou certificados da exata mesma cadeia de Autoridade de Certificação (CA). As discrepâncias farão com que os handshakes EAP-TLS e PEAP falhem durante a rotação de nós.
- Ajustar os Temporizadores NAD: Otimize os temporizadores de repetição e limite de tempo (timeout) do RADIUS nos seus Dispositivos de Acesso à Rede (NAD). Um timeout de dois segundos com duas repetições oferece um equilíbrio entre a deteção rápida de failover e a prevenção de failover prematuro durante pequenos congestionamentos de rede.
- Testar Cenários de Falha: Trate os nós secundários como sistemas de produção. Simule regularmente falhas de nós, dessincronização de bases de dados e quedas de ligações WAN para validar se os mecanismos automatizados de failover funcionam conforme projetado.
Resolução de Problemas e Mitigação de Riscos
O modo de falha mais comum em alta disponibilidade RADIUS é o desvio de configuração (configuration drift). Em configurações Ativo-Passivo, os administradores atualizam frequentemente as políticas ou renovam os certificados no nó primário, mas negligenciam o secundário. Quando ocorre um evento de failover, o nó secundário rejeita o tráfego legítimo devido a credenciais expiradas ou políticas desatualizadas.
Para mitigar este risco, implemente ferramentas de gestão de configuração (como Ansible ou Terraform) para aplicar alterações de forma simétrica em todos os nós. Para a gestão de certificados, utilize protocolos de renovação automatizados (como ACME) configurados para distribuir o certificado atualizado simultaneamente por todo o cluster.
Outro risco de relevo é a configuração incorreta do balanceador de carga. Se um balanceador de carga não realizar verificações de integridade (health checks) na camada de aplicação (especificamente verificando a capacidade de resposta da porta UDP 1812), poderá continuar a encaminhar tráfego para um nó onde o sistema operativo está a funcionar, mas o daemon RADIUS falhou. Certifique-se de que as verificações de integridade validam explicitamente a disponibilidade do serviço RADIUS.
ROI e Impacto no Negócio
O retorno do investimento para uma alta disponibilidade RADIUS robusta é medido principalmente através da mitigação de riscos e da eficiência operacional. As interrupções de autenticação resultam em perdas imediatas de produtividade para os colaboradores e em graves danos de reputação para locais públicos.
Ao transitar de implementações manuais de servidor único para arquiteturas automatizadas Ativo-Ativo (particularmente através do Cloud RADIUS), as organizações recuperam horas significativas de engenharia anteriormente dedicadas à manutenção de rotina. Esta eficiência operacional permite que as equipas de rede se concentrem em iniciativas estratégicas, tais como implementar Os Benefícios Centrais do SD WAN para Empresas Modernas ou otimizar a cobertura de alta densidade, em vez de combater falhas de autenticação. Em última análise, uma autenticação fiável é a camada fundamental sobre a qual todos os serviços de rede subsequentes dependem.
Definições Principais
Arquitetura Ativo-Ativo
Um design de alta disponibilidade onde múltiplos servidores RADIUS processam pedidos de autenticação em simultâneo, distribuindo a carga e fornecendo redundância imediata (failover) sem atrasos de deteção.
Essencial para recintos de elevada densidade (estádios, grandes superfícies comerciais) onde um único servidor não consegue lidar com picos de autenticação.
Arquitetura Ativo-Passivo
Um modelo de redundância no qual um servidor primário lida com todo o tráfego e um servidor secundário permanece inativo em standby até que o primário falhe.
Adequada para implementações mais pequenas e sensíveis a custos, mas introduz um atraso de failover de 6 a 18 segundos enquanto o dispositivo de acesso à rede deteta a falha.
Replicação Síncrona
Um método de replicação de bases de dados onde os dados são gravados em todos os nós de um cluster em simultâneo antes de a transação ser considerada concluída.
Obrigatória para bases de dados de contabilização (accounting) RADIUS em modo Ativo-Ativo (como o Galera Cluster) para evitar a perda de dados e garantir a conformidade.
Replicação Assíncrona
Um método de replicação de bases de dados onde o nó primário grava os dados e, posteriormente, os copia para os nós secundários, introduzindo um ligeiro atraso (lag).
Frequentemente utilizada em configurações Ativo-Passivo, mas acarreta o risco de perda de registos de contabilização recentes se o nó primário falhar abruptamente.
Dispositivo de Acesso à Rede (NAD)
O componente de hardware (como um ponto de acesso WiFi, switch ou gateway VPN) que solicita a autenticação ao servidor RADIUS em nome do utilizador.
Os temporizadores internos de nova tentativa (retry) e limite de tempo (timeout) do NAD ditam a rapidez com que ocorre um failover Ativo-Passivo.
Protocolo sem Estado (Stateless)
Um protocolo de comunicação que trata cada pedido como uma transação independente, não relacionada com qualquer pedido anterior.
A autenticação RADIUS através de UDP é sem estado (stateless), permitindo que os balanceadores de carga encaminhem qualquer pedido para qualquer servidor ativo de forma transparente.
Desvio de Configuração (Configuration Drift)
O fenómeno em que os servidores secundários ou de cópia de segurança ficam dessincronizados do servidor primário em termos de políticas, atualizações ou certificados ao longo do tempo.
A principal causa de falha em implementações RADIUS Ativo-Passivo quando o nó secundário é forçado a assumir o controlo.
Cloud RADIUS
Um serviço de autenticação gerido, alojado numa infraestrutura de cloud distribuída globalmente, fornecendo redundância Ativo-Ativo integrada e escalabilidade automática.
Substitui a necessidade de as equipas de TI criarem, corrigirem e monitorizarem manualmente servidores RADIUS locais (on-premise) redundantes.
Exemplos Práticos
Um grupo hoteleiro europeu gere 45 propriedades em seis países. Atualmente, executam máquinas virtuais FreeRADIUS independentes em cada propriedade. Um certificado TLS expirado recentemente num dos locais causou uma interrupção total do WiFi dos hóspedes durante uma grande conferência. Como deverão redesenhar a sua arquitetura de autenticação para evitar interrupções localizadas e reduzir os custos de manutenção?
O grupo hoteleiro deve migrar de instâncias FreeRADIUS locais de nó único para uma plataforma Cloud RADIUS centralizada que utilize uma arquitetura Ativo-Ativo. Ao tirar partido de um fornecedor de cloud com nós de extremidade geograficamente distribuídos, os pedidos de autenticação de cada propriedade são encaminhados para o nó regional mais próximo, minimizando a latência. A gestão de políticas centralizada permite que a equipa de TI defina regras de autenticação uma única vez e as aplique globalmente. O fornecedor de cloud lida automaticamente com a rotação de certificados TLS, atualizações do sistema operativo e replicação de bases de dados.
Um estádio de desporto nacional está a preparar-se para um evento com 60.000 espetadores. A sua configuração RADIUS atual é Ativo-Passivo. Durante os testes de carga, o servidor principal ficou saturado ao processar 8.000 pedidos de autenticação por minuto quando as portas abriram, causando atrasos graves na ligação, enquanto o servidor secundário permaneceu completamente inativo. Como podem otimizar esta implementação?
A equipa de engenharia de rede deve converter a implementação de Ativo-Passivo para Ativo-Ativo. Primeiro, devem reconfigurar os Dispositivos de Acesso à Rede (NADs) do estádio para utilizar o equilíbrio de carga round-robin em ambos os servidores RADIUS, duplicando instantaneamente a sua capacidade de processamento de autenticação. Segundo, devem provisionar um terceiro nó RADIUS para fornecer a margem necessária para picos de utilização. Finalmente, para garantir que os dados de contabilização permanecem consistentes em todos os três nós ativos, devem implementar uma solução de replicação de base de dados multi-master síncrona, como o Galera Cluster.
Perguntas de Prática
Q1. O seu cliente de retalho empresarial necessita de uma solução RADIUS de alta disponibilidade para os seus terminais de ponto de venda. Eles têm requisitos estritos de conformidade PCI DSS que ditam que absolutamente nenhum dado de sessão de contabilidade (accounting) pode ser perdido durante uma falha de servidor (failover). Que estratégia de replicação de base de dados deve implementar para o backend do RADIUS?
Dica: Considere a diferença entre os dados serem gravados simultaneamente versus dados copiados após o facto.
Ver resposta modelo
Deve implementar Replicação Síncrona (como um Galera Cluster ou MySQL NDB Cluster). A replicação síncrona garante que o registo de contabilidade é confirmado em todos os nós simultaneamente antes de validar a transação. Se utilizasse replicação Assíncrona, uma falha de nó poderia resultar na perda de transações recentes que ainda não tinham sido copiadas para a base de dados secundária, violando o requisito estrito de conformidade.
Q2. A rede de um campus universitário utiliza uma configuração RADIUS Ativo-Passivo. Os estudantes queixam-se de que, quando o servidor primário entra em manutenção, demora quase 20 segundos para que os seus portáteis se liguem ao WiFi. Os pontos de acesso estão configurados com um timeout de RADIUS de 3 segundos e 5 tentativas. Como pode reduzir o atraso de failover sem alterar a arquitetura do servidor?
Dica: Calcule o tempo máximo de espera com base nos temporizadores do NAD antes de tentar o servidor secundário.
Ver resposta modelo
Deve ajustar os temporizadores nos Dispositivos de Acesso à Rede (pontos de acesso). Atualmente, o AP aguarda 3 segundos e tenta 5 vezes, resultando num atraso de 18 segundos (3 segundos × 6 tentativas no total) antes de falhar para o servidor passivo. Ao reduzir a configuração para um timeout de 2 segundos e 2 tentativas, o tempo de deteção de failover cai para 6 segundos, melhorando significativamente a experiência do utilizador durante as janelas de manutenção.
Q3. Está a migrar uma rede corporativa multi-site de um servidor RADIUS on-premise Ativo-Passivo para uma plataforma Cloud RADIUS Ativo-Ativo. Durante a fase piloto, os dispositivos autenticam-se com sucesso no Nó de Cloud A, mas quando o balanceador de carga os encaminha para o Nó de Cloud B, os handshakes EAP-TLS falham. Qual é o erro de configuração mais provável?
Dica: Considere o que o dispositivo cliente verifica ao estabelecer um túnel EAP seguro com um novo servidor.
Ver resposta modelo
O problema mais provável é uma incompatibilidade de Confiança de Certificado (Certificate Trust mismatch). Num cluster Ativo-Ativo, todos os nós RADIUS devem apresentar exatamente o mesmo certificado de servidor (ou certificados emitidos exatamente pela mesma cadeia de CA fidedigna). Se o Nó de Cloud B estiver a apresentar um certificado diferente em que os dispositivos cliente não confiam, o handshake EAP-TLS será rejeitado pelo cliente, fazendo com que a autenticação falhe, apesar de o servidor estar a funcionar corretamente.
Continue a ler esta série
Per-Device PSK por Fabricante: iPSK, DPSK, MPSK e PPSK Comparados (e Suporte a WPA3)
Uma comparação abrangente de implementações de per-device PSK na Cisco Meraki, HPE Aruba, Ruckus, Juniper Mist, Extreme, Fortinet e Ubiquiti UniFi. Saiba como o WPA3-SAE afeta as estratégias de chaves por dispositivo e quando implementar modos de transição versus migrar para o 802.1X.
Métodos de Autenticação de Captive Portal Comparados
Este guia de referência técnica de autoridade avalia as compensações arquitetónicas, operacionais e de conformidade de cinco métodos principais de autenticação de captive portal. Fornece aos arquitetos de rede, diretores de TI e gestores de marketing os dados quantitativos e as estruturas de decisão necessários para equilibrar a fricção no registo de convidados com os requisitos de recolha de dados em locais empresariais.
O que é a Autenticação por Endereço MAC? Quando Usar e Quando Evitar
Este guia de referência técnica abrangente aborda a autenticação por endereço MAC em ambientes de WiFi empresarial — como funciona a autenticação MAC baseada em RADIUS na Camada 2, as suas vulnerabilidades de segurança inerentes (incluindo falsificação de MAC e o impacto da randomização de MAC ao nível do SO) e os contextos operacionais precisos onde continua a ser uma ferramenta válida para gerir IoT e dispositivos headless. Fornece orientações de implementação práticas para gestores de TI e arquitetos de rede em setores como hotelaria, retalho, saúde e espaços públicos, com exemplos práticos reais, estruturas de decisão e contexto de integração para a plataforma de guest WiFi e analytics da Purple.