Resolved
Ausfall mehrerer über Coolify ausgelieferter Dienste
Started 24 Nov at 01:00pm CET, resolved 24 Nov at 02:14pm CET.
Resolved
The site was returning 503/500 errors because the service was unavailable. Traffic checks from multiple regions showed "no available server" responses. The issue was traced to an incompatibility between Traefik and Docker, and after fixes the monitors recovered and the incident auto-resolved a few minutes later.
Created
Betroffene Systeme:
- Coolify-Cluster
as.okra.host(„Atlas“) - Coolify-Cluster
nv.okra.host(„Nova“) - Alle Anwendungen, die über diese beiden Cluster öffentlich über Domains erreichbar sind
Zusammenfassung
Nach einem Update von Coolify und der zugrunde liegenden Docker-Engine konnten unsere Reverse-Proxy-Container (Traefik) nicht mehr mit der Docker API sprechen. Der Proxy war zwar „healthy“, konnte aber keine Routen mehr aus den laufenden Containern laden. Dadurch waren mehrere Dienste über ihre Domains nicht mehr erreichbar.
Wir haben das Problem identifiziert, das Traefik-Image aktualisiert und den Proxy auf beiden Servern neu ausgerollt. Alle Dienste sind wieder normal verfügbar.
Impact
- Öffentliche Zugriffe auf Anwendungen, die über
as.okra.hostundnv.okra.hostbereitgestellt werden, schlugen im Incident-Zeitraum fehl. - HTTP(S)-Requests liefen auf Timeouts / 4xx/5xx-Fehler, obwohl die eigentlichen App-Container gesund waren.
- Interne Dienste (z. B. direkte Container- oder Datenbankzugriffe) waren nicht betroffen, nur der externe Zugriff über Domains.
Es kam zu einer temporären Nicht-Erreichbarkeit mehrerer Webanwendungen, aber zu keinem Datenverlust.