Vorübergehende Beeinträchtigungen durch Infrastruktur-Updates // Temporary disruptions due to infrastructure updates
Incident Report for GroupAlarm
Resolved
Im Zuge umfassender Aktualisierungen der zugrundeliegenden Basis-Images für unsere Cluster-Infrastruktur kam es in der vergangenen Nacht vereinzelt zu kurzen Ausfällen einiger Dienste.
Unsere Systemarchitektur basiert auf Kubernetes, bei welchem mehrere redundante Dienst-Instanzen parallel arbeiten. Während regulärer Updates werden diese Instanzen nacheinander aktualisiert, um die kontinuierliche Verfügbarkeit sicherzustellen. Dieser Prozess findet mehrmals pro Woche statt und gilt als stabil.

Aufgrund tiefgehender Updates in der darunterliegenden Cloud-Infrastruktur kam es jedoch in zwei Zeitfenstern zu unerwarteten Unregelmäßigkeiten:
00:13 Uhr bis 00:33 Uhr – Einige First-Responder-Hotlines waren zeitweise nicht erreichbar.
04:38 Uhr bis 04:58 Uhr – Einzelne weitere GroupAlarm-Dienste wurden neu gestartet und waren für wenige Minuten nicht verfügbar.

Die Auslösung von Alarmen über die API war jederzeit gewährleistet. Es kann jedoch im zweiten Zeitfenster zu Verzögerungen bei der Verarbeitung eingehender Alarme gekommen sein. Ab 00:20 Uhr wurden die Vorgänge aktiv von einem Entwickler überwacht.
Um zukünftige Vorfälle dieser Art zu vermeiden, haben wir bereits Maßnahmen implementiert, die sicherstellen, dass solche Konstellationen bei zukünftigen Image-Updates nicht mehr auftreten.

//

In the context of comprehensive updates to the underlying base images for our cluster infrastructure, some services experienced short outages last night.
Our system architecture is based on Kubernetes, in which several redundant service instances work in parallel. During regular updates, these instances are updated one after the other to ensure continuous availability. This process takes place several times a week and is considered stable.

However, due to in-depth updates in the underlying cloud infrastructure, unexpected irregularities occurred in two time frames:
00:13 to 00:33 - Some first responder hotlines were temporarily unavailable.
04:38 to 04:58 - Some other GroupAlarm services were restarted and were unavailable for a few minutes.

The triggering of alarms via the API was guaranteed at all times. However, there may have been delays in processing incoming alarms in the second time window. From 00:20, the processes were actively monitored by a developer.
In order to avoid future incidents of this kind, we have already implemented measures to ensure that such constellations no longer occur in future image updates.
Posted Feb 07, 2025 - 04:58 CET