Cloudflare Netzwerkprobleme // Cloudflare Network Issues

Incident Report for GroupAlarm

Postmortem

Post-Mortem zur Dienstunterbrechung am 18.11.2025

Sehr geehrte Kundinnen und Kunden,

wir möchten uns für die Dienstunterbrechung aufrichtig entschuldigen, die am 18.11.2025 von ca. 12:30 Uhr bis ca. 15:30 Uhr stattfand. Wir verstehen, dass unsere Dienstleistung für Ihre Prozesse kritisch ist, und bedauern zutiefst die Auswirkungen, die dieser Ausfall auf Ihre Abläufe hatte.

Ihr Vertrauen ist uns sehr wichtig, und deshalb möchten wir transparent die Ursache der Unterbrechung erläutern und darlegen, welche Maßnahmen wir ergreifen, um eine Wiederholung in Zukunft zu verhindern.

Ursache

Die primäre Ursache für die Nicht-Erreichbarkeit unserer Plattform war der Ausfall unseres externen DNS- und Proxy-Dienstleisters Cloudflare. Dieser Ausfall ist auch der Presse zu entnehmen, da weitere Dienste und Webseiten ebenso betroffen waren.

Unsere wichtigsten Erkenntnisse:

  • Nichteinhaltung der SLO: Cloudflare hat im Zuge dieses Ausfalls die von uns erwartete SLO bezüglich der Verfügbarkeit seiner Dienste nicht eingehalten. Dieses Ereignis stellt ein schwerwiegendes Versagen in unserer kritischen Lieferkette dar.
  • Fehleinschätzung des Risikos: Wir kannten das Risiko des Single Point of Failures (SPOF) durch die alleinige Abhängigkeit von einem Provider. Allerdings haben wir die Eintrittswahrscheinlichkeit und insbesondere die damit verbundene Wiederherstellungszeit (Recovery Time) im Falle eines schwerwiegenden, globalen Ausfalls falsch eingeschätzt.
  • Die Entscheidung, eigene Maßnahmen zu ergreifen, muss auch bei unklarer Lage schneller getroffen werden.

Timeline

12:33 Uhr
Eingang von Meldungen unserer Monitoring-Systeme

12:48 Uhr
Bestätigung des Ausfalls durch Cloudflare

13:03 / 13:21 / 13:37 / 13:53 / 14:09 Uhr
Zu diesen Zeitpunkten gibt es vage Updates von Cloudflare bis zum Beginn einer Maßnahme zur Behebung der Nicht-Erreichbarkeit über die Statuspage. 

bis 14:10 Uhr
Unsere internen Tests erlauben keinen klaren Schluss über die Situation, da einzelne Anfragen immer wieder erfolgreich sind. Ab 14:10 Uhr schlägt jedoch jede Anfrage fehl.

14:20 Uhr
Als Reaktion auf den vollständigen Ausfall beschließen wir als Notfallmaßnahme, eingehende Anfragen nicht mehr über Cloudflare zu leiten. Da weder Dashboard noch interne Tools von Cloudflare zur Verfügung stehen, ist die Situation neu und etablierte Pläne sind nutzlos. Unsere Techniker müssen das DNS-System über alternative Wege anpassen, um den Proxy zu umgehen und den Traffic direkt auf unsere durchgängig funktionsfähigen Google-Cloud-Server umzuleiten.

15:20 Uhr
Die Maßnahmen zur Umgehung von Cloudflare greifen und GroupAlarm ist unter einer neuen IP-Adresse wieder erreichbar. 

15:30 Uhr
Die kundeneigenen Instanzen sind ebenso umgestellt und wieder erreichbar.

15:42 Uhr
Cloudflare postet auf der Status-Seite: “A fix has been implemented and we believe the incident is now resolved.”

Bis nach 16:00 Uhr ist das Dashboard von Cloudflare weiterhin nur eingeschränkt zu erreichen.

Unsere Lehren und zukünftige Maßnahmen

Die Konsequenzen dieses Vorfalls sind tiefgreifend und führen zu folgenden sofortigen und strategischen Schritten:

Phase 1: Sofortige Korrektur

  • Deaktivierung des Proxy: Wir haben den Proxy-Dienst unseres CDN-Partners temporär deaktiviert. Der Traffic wird aktuell direkt an unsere Systeme gesendet, um eine schnellstmögliche Wiederherstellung der Verfügbarkeit zu erreichen.
  • Vertragsbewertung: Wir werden die vertraglichen Beziehungen und die SLA/SLO unseres CDN-Partners kritisch überprüfen und gegebenenfalls neu verhandeln oder die Abhängigkeit reduzieren.

Phase 2: Aufbau weiterer Redundanz

  • DNS-Failover: Wir implementieren eine Multi-Provider-DNS-Strategie unter Verwendung eines zweiten, unabhängigen DNS-Anbieters. Dadurch wird sichergestellt, dass die Domainauflösung (NS-Eintrag) auf zwei getrennten Netzwerken liegt und wir nicht mehr von einem einzigen Anbieter abhängig sind.
  • Redundante Infrastruktur: Wir implementieren einen Backup-Load-Balancer mit WAF und DDoS-Schutz bei einem anderen Anbieter, der unsere strengen Anforderungen an Sicherheit und Datenschutz erfüllt.

Hinweis auf bestehende Sicherheitsmaßnahmen

Für besonders hohe Anforderungen an die Sicherheit und Verfügbarkeit steht seit Mitte 2025 das GroupAlarm VPN zur Verfügung. Die dedizierte Direktverbindung – ohne Cloudflare – in die Google Cloud bietet eine verbesserte Sicherheit und Stabilität für geschäftskritische Alarmierungsprozesse. 

Volle Unterstützung: WebApp, Cockpit, Pager (ERIC und FRED), GroupAlarm Box, Hotlines
Nur ausgehend: SMS und Anruf
Nur Signalisierung: App

Fazit

Wir entschuldigen uns nochmals für die Unannehmlichkeiten. Wir sind bestrebt, die Zuverlässigkeit unserer Dienste kontinuierlich zu verbessern. Die notwendigen Änderungen zur Absicherung gegen Ausfälle bei externen Dienstleistern sind unsere höchste Priorität und werden wie beschrieben in den kommenden Wochen vollständig ausgerollt.

Vielen Dank für Ihr Verständnis und Ihre anhaltende Unterstützung.

Posted Nov 18, 2025 - 18:19 CET

Resolved

This incident has been resolved.
Posted Nov 18, 2025 - 17:56 CET

Update

Durch die Umgehung von Cloudflare konnten wir die Erreichbarkeit unserer Dienste wiederherstellen.

//

By circumventing Cloudflare, we re-established the availability of our services.
Posted Nov 18, 2025 - 15:37 CET

Update

Wir sind weiterhin von dem aktuellen Cloudflare-Ausfall betroffen, der die Erreichbarkeit unserer Dienste beeinträchtigt.
Unser Team arbeitet daran, das DNS-Routing für GroupAlarm umzuleiten, um die Dienste schnellstmöglich wiederherzustellen.

//

We are still affected by the current Cloudflare outage, which is impacting the accessibility of our services.
Our team is working on rerouting the DNS for GroupAlarm to restore the services as quickly as possible.
Posted Nov 18, 2025 - 15:05 CET

Update

Die entsprechende Statusmeldung von Cloudflare finden Sie hier: https://www.cloudflarestatus.com/incidents/8gmgl950y3h7

//

You can find the corresponding Cloudflare status message here: https://www.cloudflarestatus.com/incidents/8gmgl950y3h7
Posted Nov 18, 2025 - 12:51 CET

Monitoring

Aufgrund von Problemen im Netzwerk von Cloudflare waren kurzzeitig keine Verbindungen zu GroupAlarm möglich.
Wir beobachten die Situation und werden Sie hier weiter informieren.

//

Due to problems in the Cloudflare network, connections to GroupAlarm were temporarily unavailable.
We are monitoring the situation and will keep you informed here.
Posted Nov 18, 2025 - 12:44 CET
This incident affected: Web App, API, Android App, iOS App, Flows, Hotline, Messenger, Monitor and Alarming (Android Notifications, iOS Notifications, ERIC® Pager, FRED Pager, E-Mail Notifications, E-Mail Inbound, SMS Notifications, SMS Inbound, Phone Call Notifications, Phone Call Inbound).