Medida da disponibilidade
A necessidade de disponibilidade é regida pelos objectivos do negócio e os principais objectivos da sua quantificação são os seguintes:- Fornecer e manter um referencial de disponibilidade (baseline);
- Ajudar a identificar onde melhorar os sistemas;
- Monitorizar e controlar projectos de melhoria.
É importante reconhecer que números como estes podem ser difíceis de alcançar uma vez que é necessário algum tempo para a recuperação de interrupções. A duração do tempo de recuperação correlaciona-se com os seguintes factores:
- Complexidade do sistema: Quanto mais complicado for o sistema, mais tempo levará a ser reiniciado o que significa que as interrupções que exigem desligar e reiniciar o sistema podem afectar drasticamente a sua capacidade de atingir uma desafiadora meta de disponibilidade. Por exemplo, aplicações a ser executadas num servidor de grande porte podem demorar até uma hora só para reiniciar quando o sistema foi desligado normalmente, e mais ainda se o sistema foi encerrado de forma anormal e houver necessidade de recuperar dados e ficheiros;
- Gravidade do problema: Geralmente, quanto maior a gravidade do problema, mais tempo é necessário para resolvê-lo totalmente, incluindo a recuperação de dados ou trabalho perdidos;
- Disponibilidade de pessoal de apoio: Consideremos que a interrupção ocorre após o expediente. Uma pessoa de apoio que seja chamada fora de horas poderá facilmente demorar uma ou duas horas só para diagnosticar o problema;
- Outros factores: Muitos outros factores podem impedir a resolução imediata de uma interrupção. Às vezes, uma aplicação pode sofrer uma interrupção simplesmente porque não suporta que o sistema seja desligado enquanto está a ser executada. Outros casos podem envolver a falta de hardware de substituição pelo fornecedor do sistema, ou mesmo a falta de pessoal de apoio.
Parâmetros da Disponibilidade
- Tempo Médio para Reparação (MTTR)
- Defeitos por Milhão (DPM)
- Tempo Médio entre Falhas (MTBF)
- Desempenho (por exemplo, latência, quebras de serviço)
Um sistema de AD bem construído deve alcançar valores típicos de disponibilidade superiores a 99%. No entanto, à medida que a exigência de disponibilidade do sistema aumenta além dos 90%, os custos associados à sua construção aumentam dramaticamente, mas não proporcionalmente ao aumento da disponibilidade. Por exemplo, um aumento da disponibilidade de 90% para 95% não significa necessariamente um aumento de 5% no orçamento de TI; o cálculo é muito mais complicado do que isso.
Da mesma forma, atingir 99,999% de disponibilidade requer muito esforço e dinheiro e estes custos são muitas vezes superiores ao custo inicial do equipamento necessário para disponibilidade de 90%. Além de dinheiro e máquinas, é também necessário manter uma equipe de TI altamente treinada e qualificada.
Exemplos de alta disponibilidade
Vamos ver agora alguns exemplos práticos de medição da disponibilidade:Horas de disponibilidade (A)
Isto geralmente é medido em termos de número de horas por mês, ou em qualquer outro período adequado para a organização. Exemplo:Horas de Indisponibilidade (B)
Este é o número de horas de interrupção durante as horas de disponibilidade. Se o nível desejado é alta disponibilidade, considerar apenas as interrupções não planeadas. Para operações contínuas, considerar apenas as interrupções programadas. Para disponibilidade contínua, considerar todas as interrupções. Exemplo:
Disponibilidade alcançada
Em seguida, pode calcular-se a quantidade de disponibilidade obtida da seguinte forma:Para os exemplos anteriores temos os seguintes cálculos:
Outro exemplo.
Qual é a disponibilidade de um sistema informático com MTBF = 10.000 horas e MTTR = 12 horas?
O tempo de funcionamento anual é:
Por outro lado, o tempo de inactividade anual é;
A disponibilidade (%) pode ser calculada contabilizando o tempo de interrupção dos utilizadores, tipicamente numa base mensal, mas também numa base anual.
Exemplo: Para uma disponibilidade de 98%, a disponibilidade anual é:
Alguns preferem usar o DPM (defeitos por milhão) para representar a disponibilidade do sistema (ou rede):
Outro exemplo:
- O sistema tem 100 clientes
- O período de tempo considerado é um ano ou 24 horas x 365 dias
- 8 clientes têm 24 horas de interrupção por ano
Mais um exemplo:
Existem 1.000 utilizadores numa empresa e no mês passado 30 desses utilizadores estiverem inactivos durante 60 minutos: