Alta Disponibilidade – Objectivos

O principal objectivo na criação de qualquer estratégia de Alta Disponibilidade (AD) e Recuperação de Desastres (RD) é garantir a continuidade do negócio (Business Continuity). Cada empresa tem o seu próprio nível de tolerância a falhas do sistema e interrupções de serviço e é exactamente em função dessa mesma tolerância que pode ser planeada e implementada uma estratégia adequada. Se uma empresa pode aceitar uma disponibilidade do sistema de 90%, então não há necessidade de construir uma infra-estrutura de alta disponibilidade.

Embora as soluções de AD sejam mais frequentemente discutidas em ambientes empresariais, estas considerações aplicam-se a qualquer tipo de organização em que a AD seja necessária, independentemente de ser na área educacional, sem fins lucrativos ou mesmo no âmbito da defesa. Quando se trata de organizações sem uma perspectiva comercial, não é muito fácil calcular os custos associados à inactividade e assim os sistemas de AD e RD nestas organizações tornam-se mais uma exigência do ponto de vista do serviço sem estarem necessariamente relacionados com custos associados à inactividade.

A disponibilidade dos sistemas deve ser vista sob a perspectiva do utilizador final. Cada vez que um utilizador não se conseguir ligar ao sistema é considerado como tempo de inactividade mas isto não significa necessariamente que o servidor central está em baixo porque, em muitos casos, um sistema com muito baixo desempenho também é considerado um sistema indisponível.

Assim, alta disponibilidade não implica apenas criar redundância num único sistema, base de dados ou aplicação, mas sim combinar várias redundâncias em todas as áreas do processo. Para cada negócio ou organização, as bases de dados têm um papel importante, tudo é construído em torno delas, portanto, a maioria dos esforços para alta disponibilidade estão orientados de forma a tornar a base de dados "altamente disponível."
Mais especificamente, uma arquitectura de alta disponibilidade deve ter as seguintes características:
  • Tolerar falhas para que o processamento continue ininterruptamente ou apenas com interrupções mínimas;
  • Ser transparente ou tolerante a alterações de sistema, dados ou aplicações;
  • Conter medidas preventivas embebidas na própria arquitectura;
  • Proporcionar monitorização proactiva e rápida detecção de falhas;
  • Possibilitar recuperabilidade rápida;
  • Automatizar operações de detecção e recuperação;
  • Proteja os dados de modo a minimizar ou anular completamente a perda de dados;
  • Implementar as melhores práticas operacionais para a gestão de toda a infra-estrutura;
  • Alcançar os objectivos estabelecidos nos níveis de serviço estabelecidos (por exemplo, o RTO e o RPO) pelo menor custo possível.
Os projectistas de sistemas habitualmente introduzem fiabilidade nas suas arquitecturas através da implementação de mecanismos de correcção para os defeitos latentes que os preocupam. Estes defeitos, quando corrigíveis, não produzem erros ou falhas, uma vez que fazem parte das margens de segurança incorporadas no sistema. Ainda assim, devem ser monitorizados para medir a sua ocorrência real em relação aquilo que foi antecipado, uma vez que a ocorrência excessiva de alguns defeitos corrigíveis é frequentemente um indicador de um defeito latente potencialmente mais catastrófico.

Fiabilidade, recuperabilidade, detecção atempada de erros e a capacidade de operação contínua são as principais características de uma solução altamente disponível.