Retour sur la panne majeure chez WHC

Le 28 août dernier, nos systèmes ont reçu des alertes à l’effet que plusieurs sites de nos clients hébergés chez WHC n’étaient plus opérationnels. Certains clients nous ont également contactés à cet effet.

À ce moment, nous n’avions aucune idée de l’ampleur des dégâts et les impacts que cela pourrait avoir sur nos clients.

Pour certains clients de WHC, les problèmes ont eu peu d’impact et auront été de courte durée. Pour d’autres, ce sont des années de travail qui se sont envolées en fumée.

Que s’est-il passé ?

Tout d’abord, mettons un peu de contexte sur cet incident majeur. Selon le blogue de l’entreprise, le fondateur et directeur de WHC Emil Falcon raconte l’incident :

« D’après l’enquête que nous avons menée jusqu’à présent, le matin du 28 août vers 6h00, un individu appartenant à un fournisseur de services tiers a utilisé son compte d’accès privilégié pour se connecter à l’un des portails de gestion de notre centre de données, et ce sans autorisation, et a initié une réinstallation sur certains de nos serveurs de sauvegarde, puis sur certains de nos serveurs de production.

En quelques heures, notre équipe de réponse aux incidents a identifié le problème et désactivé l’accès au compte source, empêchant ainsi tout dommage supplémentaire. L’environnement a été sécurisé, l’individu complètement bloqué et notre plan de reprise après sinistre est entré immédiatement en action, mais le mal était déjà fait.
»

Le bilan n’est pas sans conséquence et fait très mal à l’entreprise et ses clients. Si certains sites ont été indisponibles pendant quelques heures, d’autres ont tout simplement été rayés de la carte… laissant des clients devant un compte partiellement ou totalement vide.

Ce que l’on doit retenir

Quand un événement du genre se produit, de nombreux apprentissages peuvent être faits. Cet événement n’en fait pas exception. Voici donc ce que nous en retenons :

Personne n’est à l’abri d’une erreur

WHC est en affaires depuis 2003 et héberge plus de 160 000 sites. On ne crée pas une telle entreprise sur une aussi longue période de temps en étant négligeant, de manière générale. Le but ici n’est pas de les excuser, car il faut admettre que la faute est grave. Par contre, nous avons malheureusement vu quelques hébergeurs tenter de tirer profit de la situation en vantant leur infrastructure. Il est donc très important d’évaluer notre risque efficacement de manière à protéger ses acquis. Ça s’applique à votre site web, mais également à tout autre aspect de votre entreprise.

Beaucoup d’utilisateurs ont trop de permissions

Tout cet épisode aurait été créé par un sous-contractant qui avait accès aux serveurs de productions et au système de backup. Quotidiennement, lorsque nous intervenons sur les sites de nos clients, nous constatons que des utilisateurs sont administrateurs alors que ce droit n’est pas nécessaire. Chez SatelliteWP, nous nous questionnons au quotidien sur la façon dont nous pouvons réduire les accès de notre propre équipe à des projets sur lesquels ils ne travaillent pas. Pour toutes sortes de raisons, c’est souvent loin d’être simple. Cela dit, donner un accès Administrateur à chaque membre de votre équipe n’est pas une bonne idée.

Le point de défaillance unique (single point of failure) fait mal

En gérant leur nom de domaine, zone DNS et hébergement web au même endroit, certains clients de l’entreprise se sont retrouvés dans une situation où tout est tombé au même moment : leur site web, leurs courriels… et la possibilité de modifier leur configuration. Peu importe la confiance que vous avez envers vos partenaires, il faut gérer votre risque de manière logique. À titre d’exemple, nous préférons obtenir des accès délégués à vos comptes plutôt que d’obtenir votre mot de passe. Cela réduit votre risque et permet de nous retirer, sans impact, à tout moment.

Il faut avoir un plan de relève

Il n’est pas possible de savoir à quel point le plan de relève de l’entreprise était à point ou non par rapport à la situation. Ceci étant dit, l’équipe de WHC a rapidement mis en place une stratégie de communication permettant de garder les clients au courant. Puis, ils ont créé des comptes temporaires nommés Life Boat afin d’aider leur client à rétablir leur site plus rapidement. Comme nous avons plusieurs clients utilisant leur service, nous avons pu remarquer quelques problèmes avec l’utilisation de ces comptes temporaires, mais l’intention de WHC était plus que noble.

La transparence est la clé

Si WHC a perdu des points avec cet incident, ils ont assurément gagné notre respect en étant transparent durant l’événement. De manière régulière, ils ont mis à jour leur blogue et leurs réseaux sociaux afin que leurs clients puissent être au courant de l’état de leur progression dans la résolution de l’incident. Reconnaître ses erreurs n’est pas évident. WHC a pris le blâme en assumant ce qui se passait. L’entreprise a également pris le temps de publier un post-mortem concernant la panne et ce qui a été fait.

Bref…

Que vous soyez client de WHC ou non, vous n’êtes pas à l’abri. Ce n’est qu’une question de temps avant qu’un incident se produise dans votre entreprise. Que retenez-vous de tout cela ? Pouvez-vous identifier certains risques présents dans votre entreprise qui doivent être évalués ou réduits ? Ça peut être lié à votre site web, aux assurances de votre entreprise, vos procédures internes, etc. 

Le risque est partout. Faites le nécessaire pour le réduire au maximum.

L'article "Retour sur la panne majeure chez WHC" a été modifié la dernière fois le 5 novembre 2021 par Maxime Jobin.

Partager cet article

À propos de Maxime Jobin

Maxime Jobin est le co-fondateur de SatelliteWP. L'automatisation et la performance sont ses passions professionnelles. Il aime partager son expertise et ses expériences de manière à transmettre ses connaissances pour éviter que les autres commettent les mêmes erreurs. Axé sur l’efficacité et le retour sur investissement, il est un expert en analyse et développement de solutions informatisées.

Laissez un commentaire