Services Cloud, offres open source, intelligence artificielle, Internet des objets… Les infrastructures informatiques deviennent de plus en plus complexes, et dans ces conditions, assurer leur fiabilité en cas d’incident devient une véritable gageure pour les DSI. C’est pourquoi certains services IT ont tâché de développer des méthodes innovantes pour mettre à l’épreuve leur système d’information. Baptisées “ingénierie du chaos”, il s’agit de mettre à l’épreuve ses infrastructures avec le déclenchement volontaire d’incidents.

Initiées par Netflix, ces méthodes ont été adoptées par des grands de l’IT tels que Amazon ou encore Microsoft. En France, c’est la SNCF avec son entité IT VSC Technologies, qui expérimente actuellement le concept. Ivision vous présente le concept de l’ingénierie du chaos et quelques recommandations utiles à la mise en place de telles procédures au sein de votre SI.

 

Qu’est-ce que l’ingénierie du chaos ?

L’ingénierie du chaos est une discipline qui consiste à éprouver la résilience de tout ou partie d’une infrastructure informatique en générant volontairement et de façon contrôlée des pannes dans un système en production.

Concrètement, cela signifie qu’il faut se préparer d’une part, à ce que les tests aient des répercussions sur le fonctionnement de l’entreprise, puisqu’il s’agit de tests réalisés en environnement de production, en conditions réelles, et auxquels il faut apporter de vrais réponses, mais il faut également se préparer, dans un deuxième temps, à ce que les conséquences de ces tests soient maîtrisés, pour éviter à l’entreprise des pertes ou des coûts inattendus.

 

Comment mettre en oeuvre un test d’ingénierie du chaos ?

  • Pour bien mettre en oeuvre un test d’ingénierie du chaos, il faut tout d’abord avoir identifié un objectif précis et mesurable.
  • Avant de réaliser le test en production, une première précaution est de le réaliser en environnement de test. Cela permet dans un premier temps de limiter les risques de voir échapper le contrôle du test, sans toutefois écarter toutes les possibilités, puisque l’environnement de test ne sera jamais totalement identique à l’environnement de production.
  • En amont du test en production, il est important de bien informer toutes les personnes susceptibles d’être impactées par l’expérience, toujours dans l’optique de limiter les effets de bord ou de réaction en chaîne liées aux conséquences de l’expérience.

Des exemples d’expérimentation possibles :

  • Simuler une panne de datacenter
  • Simuler une panne DNS
  • Rendre inaccessibles certains services de façon aléatoire
  • Créer des perturbations réseaux, problèmes d’accès ou de lenteur
  • Introduire des latences entre différents services, pour un pourcentage de trafic et un temps donné.

 

Comment convaincre de mettre en oeuvre une ingénierie du chaos ?

Comme toute pratique innovante, l’ingénierie du chaos nécessite une approche réfléchie pour convaincre de sa mise en oeuvre, d’autant que le concept est au premier abord effrayant. Il est important de convaincre de l’utilité de la démarche, mais aussi, d’assurer que sa mise en oeuvre sera effectuée de façon rationnelle et contrôlée, de façon à éviter une éventuelle réaction en chaîne et un incident plus important que celui prévu.

  • Ainsi, un premier pas vers cette démarche est tout d’abord de faire connaître cette nouvelle tendances aux instances décidantes, de façon à rendre le concept familier.
  • Il faut également savoir trouver le bon discours face au bon interlocuteur. Le problème ne sera pas considéré de la même façon par la direction, par un technicien ou par un simple utilisateur du système.
  • Il peut être utile de mener une analyse des risques, de façon à estimer le coût d’une éventuelle panne du système, et à pouvoir facilement justifier la démarche. A titre d’exemple, une panne de 5 minute équivaut à une perte de 2,9 millions de dollars chez Apple, 1,4 millions de dollars chez Amazon, ou encore, 21500 dollars chez Twitter.

 

Et vous, sauriez-vous estimer les coûts éventuels d’une panne sur votre système d’information ?

Faites-vous partie des structures qui ne peuvent se permettre de subir des interruptions de service, sous perte de dommages, importants, qu’il s’agisse de dommages financiers ou au niveau de la réputation de l’entreprise ?

Avez-vous pensé à mettre en oeuvre un plan de continuité d’activité ou un plan de retour à l’activité ?

N’hésitez pas à consulter nos autres ressources sur le sujet, ou à nous contacter directement pour un diagnostic de votre situation et une proposition d’accompagnement. Nos équipes expertes vous aident à définir vos priorités et à protéger l’intégrité et le bon fonctionnement de vos données, de vos applications et de vos infrastructures.