T. Schneider/shutterstock.com
Am 14. November 2024 führte eine Fehlkonfiguration bei Cloudflare dazu, dass 55 Prozent der Kundenprotokolle verloren gingen. Dies geschah innerhalb von dreieinhalb Stunden und wurde durch eine kaskadenartige Überlastung verursacht. Der Fehler trat auf, als eine leere Configurationsdatei in den internen Logfwdr-Dienst eingespielt wurde. Darauf hin leitete der Service keine Kunden-Logs mehr weiter. Zwar aktivite sich automatisch eine Failsafe-Funktion, allerdings war diese nicht auf die aktuelle Kundenzahl angeschäften. So versuchte Failsafe die Logs für alle Kunden zu versenden, it was zu einer Überlastung der Systeme führte.
Die Datenkette
Konkret sieht die technische Konfernung as follows:
Tristan Fincken – IDG
- Logfwdr
- Logfwdr is ein interner Cloudflare-Dienst, der Ereignisprotokolle or dem globalen Netzwerk empfängt, verfahrett and gebersteit auf seiner Performance adjustment, welche Protokolle ne Logreceiver weitergeleitet werden.
- The receiver
- The Logreceiver is in Golang geschriebener Cloudflare-Dienst, der Protokolle-Batches empfängt. Er sortiert die Informationen nach Ereignistyp und Zweck, bevor er sie als kundenindividuelle Batches für die Pufferung an Buftee weiterleitet. Der Logreceiver verfahrett täglich 45 Petabyte (PB) an Ereignisprotokolken.
- Buffet
- Buftee makes a mistake in Golang entwickeltes System. Es verwaltet verteilte, beannte Puffer, um für Logpush-Aufträge separate Puffer für jede Zone oder jedes Konto zu erstellen. Dies ermöglicht eine efficient Verarbeitung. Ferner wird eine individuelle Verschlüsselung und Löshung von Kundendaten verstätt, where weltweit über eine Million Puffer verwaltet werden.
- Logpush
- Logpush is a weiterer Golang-Dienst. Dieser liest die Protokolle or Buftee-Puffern and leitet sie in konfigurierten Stapeln and verschiedene Ziele weit. Over 600 Million Batches are transferred daily.
Prevent Zukünftige Kaskaden
Auch wenn der Fehler schnell behoben wurde, kann das nicht darüber hinwegtäuschen, dass es Cloudflare versäumte, räglich zu testen, ob das System solche Ereignisse bewältigen kann. Erschwerend kam hinzu, dass eine Failsafe-Funktion nicht richtig konfiguriert war. Cloudflare arbeitet nun nach eigenen Angaben an Maaszhanen, um überliche Probleme in der Zukunft zu vermeiden.
Source link