Alta Disponibilidade - Medição (I)

Medida da disponibilidade

A necessidade de disponibilidade é regida pelos objectivos do negócio e os principais objectivos da sua quantificação são os seguintes:
  • Fornecer e manter um referencial de disponibilidade (baseline);
  • Ajudar a identificar onde melhorar os sistemas;
  • Monitorizar e controlar projectos de melhoria.
A evolução tecnológica dos últimos anos tornou possível que a maioria dos sistemas possa atingir 90% de disponibilidade com pouco mais que alguma redundância e disciplina no departamento de TI, em vez de qualquer hardware ou software específicos para atingir esse objectivo. Porém, para atingir mais de 90% de disponibilidade do sistema, há que ter em conta algumas considerações especiais e nós vamos olhar para isso nos próximos posts.
É importante reconhecer que números como estes podem ser difíceis de alcançar uma vez que é necessário algum tempo para a recuperação de interrupções. A duração do tempo de recuperação correlaciona-se com os seguintes factores:
  • Complexidade do sistema: Quanto mais complicado for o sistema, mais tempo levará a ser reiniciado o que significa que as interrupções que exigem desligar e reiniciar o sistema podem afectar drasticamente a sua capacidade de atingir uma desafiadora meta de disponibilidade. Por exemplo, aplicações a ser executadas num servidor de grande porte podem demorar até uma hora só para reiniciar quando o sistema foi desligado normalmente, e mais ainda se o sistema foi encerrado de forma anormal e houver necessidade de recuperar dados e ficheiros;
  • Gravidade do problema: Geralmente, quanto maior a gravidade do problema, mais tempo é necessário para resolvê-lo totalmente, incluindo a recuperação de dados ou trabalho perdidos;
  • Disponibilidade de pessoal de apoio: Consideremos que a interrupção ocorre após o expediente. Uma pessoa de apoio que seja chamada fora de horas poderá facilmente demorar uma ou duas horas só para diagnosticar o problema;
  • Outros factores: Muitos outros factores podem impedir a resolução imediata de uma interrupção. Às vezes, uma aplicação pode sofrer uma interrupção simplesmente porque não suporta que o sistema seja desligado enquanto está a ser executada. Outros casos podem envolver a falta de hardware de substituição pelo fornecedor do sistema, ou mesmo a falta de pessoal de apoio.


Parâmetros da Disponibilidade

  • Tempo Médio para Reparação (MTTR)
  • Defeitos por Milhão (DPM)
  • Tempo Médio entre Falhas (MTBF)
  • Desempenho (por exemplo, latência, quebras de serviço)
A disponibilidade é geralmente expressa como uma percentagem de tempo de actividade num determinado ano. A tabela a seguir mostra o tempo de inactividade que será permitido para uma determinada percentagem de disponibilidade, partindo do pressuposto que o sistema opera continuamente. Os níveis de serviço acordados referem-se geralmente aos tempos de inactividade ou disponibilidade mensais de modo a calcular os créditos de serviço para combinar com os ciclos de facturação mensal. A tabela mostra a equivalência entre uma dada percentagem de disponibilidade e o correspondente tempo que um sistema estaria disponível por ano, mês ou semana.

Disponibilidade




Um sistema de AD bem construído deve alcançar valores típicos de disponibilidade superiores a 99%. No entanto, à medida que a exigência de disponibilidade do sistema aumenta além dos 90%, os custos associados à sua construção aumentam dramaticamente, mas não proporcionalmente ao aumento da disponibilidade. Por exemplo, um aumento da disponibilidade de 90% para 95% não significa necessariamente um aumento de 5% no orçamento de TI; o cálculo é muito mais complicado do que isso.
Da mesma forma, atingir 99,999% de disponibilidade requer muito esforço e dinheiro e estes custos são muitas vezes superiores ao custo inicial do equipamento necessário para disponibilidade de 90%. Além de dinheiro e máquinas, é também necessário manter uma equipe de TI altamente treinada e qualificada.
 

Exemplos de alta disponibilidade

Vamos ver agora alguns exemplos práticos de medição da disponibilidade:
 

Horas de disponibilidade (A)

Isto geralmente é medido em termos de número de horas por mês, ou em qualquer outro período adequado para a organização. Exemplo:

Disponibilidade

Horas de Indisponibilidade (B)

 
Este é o número de horas de interrupção durante as horas de disponibilidade. Se o nível  desejado é alta disponibilidade, considerar apenas as interrupções não planeadas. Para operações contínuas, considerar apenas as interrupções programadas. Para disponibilidade contínua, considerar todas as interrupções. Exemplo:
 
Inactividade

Disponibilidade alcançada

Em seguida, pode calcular-se a quantidade de disponibilidade obtida da seguinte forma:

Disponibilidade

Para os exemplos anteriores temos os seguintes cálculos:

Disponibilidade

Outro exemplo.
Qual é a disponibilidade de um sistema informático com MTBF = 10.000 horas e MTTR = 12 horas?

Disponibilidade

O tempo de funcionamento anual é:

Tempo de Funcionamento

Por outro lado, o tempo de inactividade anual é;

Tempo de Inactividade

A disponibilidade (%) pode ser calculada contabilizando o tempo de interrupção dos utilizadores, tipicamente numa base mensal, mas também numa base anual.
Exemplo: Para uma disponibilidade de 98%, a disponibilidade anual é:
 
Disponibilidade anual

Alguns preferem usar o DPM (defeitos por milhão) para representar a disponibilidade do sistema (ou rede):

DPM
Tempo de Inactividade

Outro exemplo:
  • O sistema tem 100 clientes
  • O período de tempo considerado é um ano ou 24 horas x 365 dias
  • 8 clientes têm 24 horas de interrupção por ano

DPM
Disponibilidade
MTBF
MTTR

Mais um exemplo:
Existem 1.000 utilizadores numa empresa e no mês passado 30 desses utilizadores estiverem inactivos durante 60 minutos:

Tempo de Funcionamento
Tempo de Paragem
Disponibilidade