Langsame und z. T. wiederholte Verarbeitung von Flows // Slow and partly repeated processing of flows

Incident Report for GroupAlarm

Resolved

In der Nacht vom 24.02.2025 auf den 25.02.2025 kam es in unserem System zu einer temporären Verzögerung in der Verarbeitung von Flow-Funktionen, die zu mehrfach ausgelösten Alarmen führte.

Was ist passiert?
Gegen 23:00 Uhr startete eine Vielzahl von Flows gleichzeitig mit komplexen Verarbeitungsschritten und der Auslösung von Alarmen. Dies führte dazu, dass die Systemauslastung anstieg und das System zum Schutz der übrigen Dienste die Rechenressourcen für Flows limitierte. Infolgedessen wurden Flow-Funktionen verlangsamt, sodass diese fälschlicherweise mehrfach ausgeführt wurden, was zu doppelten Alarmen führte.

Wie wurde der Vorfall behoben?
Unser Engineering-Team wurde umgehend alarmiert und erhöhte schrittweise die zugewiesenen Systemressourcen, um die verzögerten Flow-Funktionen abzuarbeiten. Gegen 00:54 Uhr waren alle offenen Flow-Funktionen erfolgreich verarbeitet, und um 00:58 Uhr wurden alle verbleibenden Alarme ausgelöst. Während des gesamten Vorfalls gingen keine Alarme verloren.

Welche Maßnahmen wurden ergriffen?
Kurzfristig haben wir die verfügbaren Ressourcen erhöht, um eine schnelle Verarbeitung auch unter hoher Systemlast sicherzustellen. Zudem werden wir die Ausführung von Flows optimieren, um doppelte Alarmierungen in solchen Szenarien zu vermeiden.

//

During the night of 24/02/2025 to 25/02/2025, there was a temporary delay in the processing of flow functions in our system, which led to multiple alarms being triggered.

What happened?
At around 23:00, a large number of flows started simultaneously with complex processing steps and the triggering of alarms. This led to an increase in system utilisation and the system limited the computing resources for flows to protect the other services. As a result, flow functions were slowed down so that they were erroneously executed multiple times, leading to duplicate alarms.

How was the incident resolved?
Our engineering team was immediately alerted and gradually increased the allocated system resources to handle the delayed flow functions. At around 00:54 all open flow functions were successfully processed and at 00:58 all remaining alarms were raised. No alarms were lost during the entire incident.

What measures were taken?
In the short term, we have increased the available resources to ensure fast processing even under high system load. We will also optimise the execution of flows to avoid duplicate alerts in such scenarios.
Posted Feb 25, 2025 - 00:58 CET