Tolerância a falhas

November 29, 2022
A tolerância a falhas é a capacidade do sistema de continuar funcionando apesar de falhas ou problemas.

A tolerância a falhas define um processo que permite que o sistema operacional responda a falhas de hardware ou software. A tolerância a falhas é importante para a continuidade dos negócios e a alta disponibilidade de aplicativos e sistemas, independentemente dos problemas.

Como garantir a tolerância a falhas?

Para uma operação sem falhas no sistema, não deve haver componentes que, em caso de mau funcionamento, levem à falha de todo o sistema. Principais aspectos de um sistema sustentável: balanceamento de carga e eliminação de um único ponto de falha.

A tolerância a falhas segue dois modelos básicos.

  1. Operação normal do sistema – quando a estrutura tolerante a falhas encontra um mau funcionamento, mas continua a operar normalmente. O sistema não vê alterações no desempenho, como taxa de transferência ou tempo de resposta.
  2. Diminuição suave do desempenho quando ocorrem problemas. O impacto de uma falha no desempenho do sistema é proporcional à gravidade da falha – uma pequena falha terá pouco impacto no desempenho do sistema em vez de uma falha completa.

Elementos principais do sistema tolerante a falhas

Os sistemas tolerantes a falhas usam componentes redundantes que substituem automaticamente os elementos com falha para evitar a perda de desempenho.

Os sistemas de hardware podem ser reservados por sistemas idênticos ou equivalentes. Um exemplo típico é um servidor que fez failover implantando um servidor idêntico que é executado em paralelo e espelha todas as suas operações. Por exemplo, uma matriz redundante de discos independentes (RAID) que combina componentes físicos de disco para obter redundância e melhorar o desempenho.

Os sistemas de software podem se tornar à prova de falhas por meio de backup com outro software. Um exemplo comum é o backup do banco de dados que contém dados do cliente para garantir a replicação contínua em outro computador. Se o banco de dados principal falhar, as operações continuarão, pois serão automaticamente replicadas e redirecionadas para o banco de dados de backup.

As fontes de alimentação também podem ser tolerantes a falhas – o sistema é equipado com uma ou mais fontes de alimentação que não precisam fornecer energia ao sistema se a fonte de alimentação primária estiver funcionando normalmente. Em caso de falha ou mau funcionamento da fonte de alimentação principal, ela pode ser desativada e substituída por uma fonte de reserva, que assume suas funções e garante o desempenho do sistema.

(English) We use cookies to optimize site functionality and give you the best possible experience. To learn more about the cookies we use, please visit our Cookies Policy. By clicking ‘Okay’, you agree to our use of cookies. Learn more.