Get in touch
Back
Resolved

Ausfall mehrerer über Coolify ausgelieferter Dienste

Started 24 Nov at 01:00pm CET, resolved 24 Nov at 02:14pm CET.

Company Website Nova Atlas
Resolved

The site was returning 503/500 errors because the service was unavailable. Traffic checks from multiple regions showed "no available server" responses. The issue was traced to an incompatibility between Traefik and Docker, and after fixes the monitors recovered and the incident auto-resolved a few minutes later.

Posted 24 Nov at 02:14pm CET.
Created

Betroffene Systeme:

  • Coolify-Cluster as.okra.host („Atlas“)
  • Coolify-Cluster nv.okra.host („Nova“)
  • Alle Anwendungen, die über diese beiden Cluster öffentlich über Domains erreichbar sind

Zusammenfassung

Nach einem Update von Coolify und der zugrunde liegenden Docker-Engine konnten unsere Reverse-Proxy-Container (Traefik) nicht mehr mit der Docker API sprechen. Der Proxy war zwar „healthy“, konnte aber keine Routen mehr aus den laufenden Containern laden. Dadurch waren mehrere Dienste über ihre Domains nicht mehr erreichbar.
Wir haben das Problem identifiziert, das Traefik-Image aktualisiert und den Proxy auf beiden Servern neu ausgerollt. Alle Dienste sind wieder normal verfügbar.


Impact

  • Öffentliche Zugriffe auf Anwendungen, die über as.okra.host und nv.okra.host bereitgestellt werden, schlugen im Incident-Zeitraum fehl.
  • HTTP(S)-Requests liefen auf Timeouts / 4xx/5xx-Fehler, obwohl die eigentlichen App-Container gesund waren.
  • Interne Dienste (z. B. direkte Container- oder Datenbankzugriffe) waren nicht betroffen, nur der externe Zugriff über Domains.

Es kam zu einer temporären Nicht-Erreichbarkeit mehrerer Webanwendungen, aber zu keinem Datenverlust.

Posted 24 Nov at 01:00pm CET.