Probleme bei der Alarmierung
Incident Report for GroupAlarm
Postmortem

Beim automatischen Ausrollen einer Konfiguration war ein Fehler in einer der Konfigurationen.

Dieser Fehler hat dazu geführt, dass der Dienst für die Benachrichtigungen der Teilnehmer innerhalb eines Alarms nicht mehr korrekt funktioniert hat. Da GroupAlarm ein hochverfügbares System ist, gibt es von diesem Dienst mehrere Instanzen, wovon eine die Aufgaben an die anderen Instanzen verteilt. Diese Instanz gilt als “Leader”. Wenn dieser “Leader” mal nicht erreichbar sein sollte, wählen die anderen Instanzen automatisch einen neuen “Leader”. Die Konfiguration von diesem Wahlvorgang war fehlerhaft und hat dazu geführt, dass es keinen “Leader” mehr gab und somit auch keine Teilnehmer mehr benachrichtigt wurden.

Damit dieser Fehler nicht mehr auftreten kann, wird eine dauerhafte Prüfung eingebaut, dass dieser Vorgang der “Leader-Election” korrekt funktioniert. Sollte das nicht der Fall sein, wird das Ausrollen der Konfiguration automatisch unterbrochen, sodass es zu keinem Ausfall des Systems kommt. Zusätzlich erhalten wir über diesen Fehler eine Benachrichtigung.

Posted May 27, 2021 - 16:29 CEST

Resolved
Bei der Benachrichtigung von einzelnen Teilnehmern kam es zu Problemen, sodass die Teilnehmer nicht benachrichtigt wurden. Das Problem war von 11:48 bis 12:48 bestehend.
Posted May 27, 2021 - 11:48 CEST