Alta Disponibilidade – Soluções

Todas as grandes empresas estão actualmente sob crescente pressão para manterem os seus sistemas a funcionar de modo a disponibilizarem os seus dados e serviços continuamente. Assim, sendo os padrões de exigência para a disponibilidade cada vez mais elevados, a solução passa por projectar sistemas de armazenamento e servidores altamente disponíveis e quase à prova de balas contra a inactividade não planeada.
 
A fim de atingir os mais altos níveis de disponibilidade, uma empresa tem que implementar uma solução completa que cubra todos os possíveis pontos de falha. Mas quais são as opções disponíveis para criar uma solução de alta disponibilidade?

Podem ver no gráfico as principais soluções para as três áreas a ser abordadas, armazenamento, serviços e redes:
 
Soluções de Alta Disponibilidade

Nos próximos artigos vou explicar estas soluções em detalhe. Continuem a ler ok?

Alta Disponibilidade–Medição (II)

Parâmetros da Fiabilidade

Taxa de falhas


A fiabilidade pode ser quantificada em termos do Tempo Médio Entre Falhas (MTBF), para um produto reparável, ou em termos do Tempo Médio Para Falhas (MTTF) para um produto não reparável.

Segundo a teoria que suporta a estatística dos intervalos de confiança, a média estatística torna-se o valor médio real à medida que aumentamos o número de amostras. Assim, dizer que uma fonte de alimentação tem um MTBF de 50.000 horas não significa que essa fonte deve durar uma média de 50.000 horas, porque o MTBF de 50.000 horas, ou um ano para 1 fonte, torna-se 50.000/2 para duas fontes e 50.000/4 para quatro fontes. Somente quando todas as fontes falharem com a mesma falha é que o valor do MTBF converge para MTTF.
Se o MTBF é conhecido, pode calcular-se a taxa de falha (l) como o inverso do MTBF. A fórmula para l é:   
Taxa de Falhas

Uma vez calculado o MTBF, qual é a probabilidade de que qualquer dispositivo em particular esteja operacional no intervalo de tempo igual ao MTBF? Para componentes electrónicos, temos a seguinte equação:
 
   Fiabilidade

Mas quando t = MTBF   
Fiabilidade  
  
Isto diz-nos que a probabilidade de qualquer dispositivo em particular sobreviver ao seu MTBF é calculada apenas em 36,8%, ou seja, há 63,2% de probabilidade que um único dispositivo avarie antes do MTBF!

Alta Disponibilidade - Medição (I)

Medida da disponibilidade

A necessidade de disponibilidade é regida pelos objectivos do negócio e os principais objectivos da sua quantificação são os seguintes:
  • Fornecer e manter um referencial de disponibilidade (baseline);
  • Ajudar a identificar onde melhorar os sistemas;
  • Monitorizar e controlar projectos de melhoria.
A evolução tecnológica dos últimos anos tornou possível que a maioria dos sistemas possa atingir 90% de disponibilidade com pouco mais que alguma redundância e disciplina no departamento de TI, em vez de qualquer hardware ou software específicos para atingir esse objectivo. Porém, para atingir mais de 90% de disponibilidade do sistema, há que ter em conta algumas considerações especiais e nós vamos olhar para isso nos próximos posts.
É importante reconhecer que números como estes podem ser difíceis de alcançar uma vez que é necessário algum tempo para a recuperação de interrupções. A duração do tempo de recuperação correlaciona-se com os seguintes factores:
  • Complexidade do sistema: Quanto mais complicado for o sistema, mais tempo levará a ser reiniciado o que significa que as interrupções que exigem desligar e reiniciar o sistema podem afectar drasticamente a sua capacidade de atingir uma desafiadora meta de disponibilidade. Por exemplo, aplicações a ser executadas num servidor de grande porte podem demorar até uma hora só para reiniciar quando o sistema foi desligado normalmente, e mais ainda se o sistema foi encerrado de forma anormal e houver necessidade de recuperar dados e ficheiros;
  • Gravidade do problema: Geralmente, quanto maior a gravidade do problema, mais tempo é necessário para resolvê-lo totalmente, incluindo a recuperação de dados ou trabalho perdidos;
  • Disponibilidade de pessoal de apoio: Consideremos que a interrupção ocorre após o expediente. Uma pessoa de apoio que seja chamada fora de horas poderá facilmente demorar uma ou duas horas só para diagnosticar o problema;
  • Outros factores: Muitos outros factores podem impedir a resolução imediata de uma interrupção. Às vezes, uma aplicação pode sofrer uma interrupção simplesmente porque não suporta que o sistema seja desligado enquanto está a ser executada. Outros casos podem envolver a falta de hardware de substituição pelo fornecedor do sistema, ou mesmo a falta de pessoal de apoio.


Parâmetros da Disponibilidade

  • Tempo Médio para Reparação (MTTR)
  • Defeitos por Milhão (DPM)
  • Tempo Médio entre Falhas (MTBF)
  • Desempenho (por exemplo, latência, quebras de serviço)
A disponibilidade é geralmente expressa como uma percentagem de tempo de actividade num determinado ano. A tabela a seguir mostra o tempo de inactividade que será permitido para uma determinada percentagem de disponibilidade, partindo do pressuposto que o sistema opera continuamente. Os níveis de serviço acordados referem-se geralmente aos tempos de inactividade ou disponibilidade mensais de modo a calcular os créditos de serviço para combinar com os ciclos de facturação mensal. A tabela mostra a equivalência entre uma dada percentagem de disponibilidade e o correspondente tempo que um sistema estaria disponível por ano, mês ou semana.

Disponibilidade