Puisqu'il est impossible d'empêcher totalement les pannes, une solution consiste à
mettre en place des mécanismes de redondance, en dupliquant
les ressources critiques.
La capacité d'un système à fonctionner malgré
une défaillance d'une de ses composantes est appelée tolérance aux pannes
(parfois nommée tolérance aux fautes », en anglais fault tolerance).
Lorsqu'une des ressources tombe en panne, les autres ressources prennent
le relais afin de laisser le temps aux administrateurs du système de remédier à l'avarie.
En anglais le terme de « Fail-Over Service » (noté FOS)
est ainsi utilisé.
Idéalement, dans le cas d'une panne matérielles, les éléments matériels fautifs
devront pouvoir être « extractibles à chaud » (en anglais
« hot swappable »), c'est-à-dire pouvoir être extraits puis remplacés, sans
interruption de service.
Ce document intitulé« Sûreté de fonctionnement - Tolérance aux pannes » issu de l'encyclopédieinformatiqueComment Ça Marche (www.commentcamarche.net) est mis à disposition sous les termes de la licence Creative Commons.
Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement.