Interruption des services chez OVH

Beaucoup en ont pâti et l'incident a soulevé à nouveau la question fatidique : ne centraliserions pas nous-mêmes un peu trop les services et les données ?Les problèmes éthiques mis à part, quelques détails sur l'interruption de la nuit de jeudi à vendredi.

Jeudi autour de 21h (21h20 selon plusieurs mesures), la majorité des services TeDomum abrités chez OVH était inaccessible. Nous avons mené plusieurs séries de mesures et diagnostics afin d'identifier la cause racine, sans succès. Les symtômes sont les suivants.

  • Le traffic réseau est correctement traité par le noyau, les ports en écoute sont restés actifs.
  • Nous obtenons des réponses aux requêtes //echo ICMP// (ping) sur toutes les adresses montées sur les machines.
  • Nous obtenons des //SYN/ACK// sur tous les ports TCP sensés être ouverts et des erreurs ICMP sur les ports UDP fermés.
  • Aucun processus ne semble assigné au traitement des trames UDP ou aux flux TCP ouverts côté noyau.

En parallèle, l'analyse post-incident a révélé plusieurs indices supplémentaires.

  • Aucune écriture disque n'a eu lieu après le début de l'incident.
  • Les tâches CRON ne se sont pas déclenchées ou ont échoué à cause d'accès disque impossibles.
  • Aucun trafic réseau anormal (en termes de volume) n'a été constaté sur les équipements (commutateurs et routeurs).

Nous peinons aujourd'hui à isoler une hypothèse probable expliquant un tel comportement. Nous en sommes venus à la conclusion de la défaillance noyau sans pouvoir expliquer son origine exacte.