(English)

Tolérance aux pannes

November 29, 2022
Tolérance aux pannes est une capacité du système à continuer à fonctionner malgré des pannes ou des dysfonctionnements.

La tolérance aux pannes définit le processus permettant au système d’exploitation de répondre à des défaillances matérielles ou logicielles. La tolérance aux pannes est importante pour la continuité de l’activité et la haute disponibilité des applications et des systèmes, quel que soit le problème.

Comment assurer la tolérance aux pannes ?

Pour assurer le bon fonctionnement du système, il ne doit pas y avoir de composants qui, en cas de défaillance, entraîneraient la défaillance de l’ensemble du système. Les principaux aspects d’un système durable sont l’équilibrage de la charge et l’élimination du point de défaillance unique.

La tolérance aux pannes suit deux modèles principaux.

  1. Fonctionnement normal du système : lorsqu’une structure tolérante aux pannes rencontre une panne mais continue de fonctionner normalement. Le système ne voit aucun changement dans les mesures de performance telles que la bande passante ou le temps de réponse.
  2. Baisse des performances en douceur en cas de pannes. L’impact d’une défaillance sur l’efficacité du système est proportionnel à la gravité de la défaillance — un petit problème aura peu d’impact sur les performances du système, plutôt que de provoquer un dysfonctionnement complet.

Les principaux éléments d’un système tolérant aux pannes

Les systèmes tolérants aux pannes utilisent des composants redondants qui remplacent automatiquement les éléments défaillants pour éviter toute perte de performances.

Les systèmes matériels peuvent être réservés par des systèmes identiques ou équivalents. Un exemple typique est un serveur rendu tolérant aux pannes en déployant un serveur identique qui fonctionne en parallèle et effectue toutes ses opérations en miroir. Par exemple, une matrice redondante de disques indépendants (RAID), qui combine des composants de disque physique pour assurer la redondance et améliorer les performances.

Les systèmes logiciels peuvent être rendus tolérants aux pannes en étant sauvegardés avec d’autres logiciels. Un exemple courant est la sauvegarde d’une base de données contenant des données client afin qu’elle puisse être répliquée en continu sur une autre machine. En cas de défaillance de la base de données principale, les opérations se poursuivront car elles sont automatiquement répliquées et redirigées vers la base de données de secours.

Les sources d’alimentation peuvent également être rendues tolérantes aux pannes : le système est équipé d’un ou plusieurs blocs d’alimentation qui n’ont pas besoin d’alimenter le système si le bloc d’alimentation principal fonctionne normalement. En cas de défaillance ou de dysfonctionnement de l’alimentation principale, elle peut être mise hors service et remplacée par une alimentation de secours, qui reprend ses fonctions et assure les performances du système.

Nous utilisons des cookies pour optimiser les fonctionnalités du site et vous offrir la meilleure expérience possible. Pour en savoir plus sur les cookies que nous utilisons, veuillez consulter notre Politique de cookies. En cliquant sur « Okay », vous acceptez notre utilisation des cookies. Learn more.