-
Inzwischen gibt es ein PostMortem
Autor: TheDragon 04.11.23 - 19:13
Hier der Link:
https://blog.cloudflare.com/post-mortem-on-cloudflare-control-plane-and-analytics-outage/
TL;DR (übersetzt):
Am Donnerstag, den 2. November 2023, um 11:43 UTC kam es zu einem Ausfall der Kontroll- und Analysedienste von Cloudflare.
Am 2. November um 08:50 UTC hatte Portland General Electric (PGE), der Energieversorger, der PDX-04 versorgt, ein ungeplantes Wartungsereignis, das eine seiner unabhängigen Stromeinspeisungen in das Gebäude betraf.
Wir vermuten, dass es sich dabei um den Transformator handelte, der den Strom aus dem Netz für die zweite Einspeisung abschaltete, die bei der Einspeisung in das Rechenzentrum noch in Betrieb war, konnten aber keine Bestätigung von Flexential oder PGE erhalten.
Dies bedeutete, dass die beiden Stromerzeugungsquellen für die Einrichtung - sowohl die redundanten Versorgungsleitungen als auch die 10 Generatoren - offline waren.
Was wir in diesem Fall erwartet hatten, war, dass unsere Analysen offline sein würden, dass Protokolle in der Warteschlange am Rand stehen und sich verzögern würden, und dass bestimmte Dienste mit geringerer Priorität, die nicht in unseren Hochverfügbarkeitscluster integriert waren, vorübergehend offline gehen würden, bis sie in einer anderen Einrichtung wiederhergestellt werden könnten.
Wir verfügen über die richtigen Systeme und Verfahren, um selbst einer solchen Kaskade von Ausfällen standzuhalten, wie wir sie bei unserem Rechenzentrumsanbieter erlebt haben, aber wir müssen strenger darauf achten, dass sie befolgt und auf unbekannte Abhängigkeiten getestet werden.



