A tolerância a falhas define um processo que permite que o sistema operacional responda a falhas de hardware ou software. A tolerância a falhas é importante para a continuidade dos negócios e a alta disponibilidade de aplicativos e sistemas, independentemente dos problemas.
Como garantir a tolerância a falhas?
Para uma operação sem falhas no sistema, não deve haver componentes que, em caso de mau funcionamento, levem à falha de todo o sistema. Principais aspectos de um sistema sustentável: balanceamento de carga e eliminação de um único ponto de falha.
A tolerância a falhas segue dois modelos básicos.
- Operação normal do sistema – quando a estrutura tolerante a falhas encontra um mau funcionamento, mas continua a operar normalmente. O sistema não vê alterações no desempenho, como taxa de transferência ou tempo de resposta.
- Diminuição suave do desempenho quando ocorrem problemas. O impacto de uma falha no desempenho do sistema é proporcional à gravidade da falha – uma pequena falha terá pouco impacto no desempenho do sistema em vez de uma falha completa.
Elementos principais do sistema tolerante a falhas
Os sistemas tolerantes a falhas usam componentes redundantes que substituem automaticamente os elementos com falha para evitar a perda de desempenho.
Os sistemas de hardware podem ser reservados por sistemas idênticos ou equivalentes. Um exemplo típico é um servidor que fez failover implantando um servidor idêntico que é executado em paralelo e espelha todas as suas operações. Por exemplo, uma matriz redundante de discos independentes (RAID) que combina componentes físicos de disco para obter redundância e melhorar o desempenho.
Os sistemas de software podem se tornar à prova de falhas por meio de backup com outro software. Um exemplo comum é o backup do banco de dados que contém dados do cliente para garantir a replicação contínua em outro computador. Se o banco de dados principal falhar, as operações continuarão, pois serão automaticamente replicadas e redirecionadas para o banco de dados de backup.
As fontes de alimentação também podem ser tolerantes a falhas – o sistema é equipado com uma ou mais fontes de alimentação que não precisam fornecer energia ao sistema se a fonte de alimentação primária estiver funcionando normalmente. Em caso de falha ou mau funcionamento da fonte de alimentação principal, ela pode ser desativada e substituída por uma fonte de reserva, que assume suas funções e garante o desempenho do sistema.