Archiv der Kategorie: Probleme

Serverausfall vom 14.4.2015 8:45 Uhr bis 15.4.2015 10:30 Uhr

Oh man, das ist bitter… Am 14.4.2015 hat um 8:45 Uhr der Out Of Memory Killer zugeschlagen und zuerst den XMPP Server, dann die Datenbank und danach den Webserver abgeschossen.

Zum Glück überwache ich diese Dienste ja und bekomme eine Mail wenn etwas nicht funktioniert. Dummerweise ist das gleiche auch auf meinem Mailserver passiert. Dort wurde am Sonntag der Virenscanner vom Out Of Memory Killer abgeschossen und die Mails landeten daher in der Deferred-Queue und wurden nicht mehr zugestellt.

Also habe ich bis heute nicht mitbekommen, dass Twattle.net nicht mehr funktionierte.

Ich finde dieses over-commitment Konzept von Linux ja irgendwie merkwürdig. Der Kernel verspricht den Programmen, dass sie viel Speicher bekommen können, hofft aber, dass sie diesen niemals tatsächlich anfordern werden, weil der Rechner diesen Speicher gar nicht hat. Fordert ein Programm dann mal mehr Speicher an als noch verfügbar ist, dann kommt der Out Of Memory Killer und sucht sich ein Programm aus, welches viele Ressourcen verwendet und beendet es einfach. Der Server ist danach in einem undefinierten Zustand und wichtige Dinge funktionieren nicht mehr.

Das ist dann so ähnlich wie in dieser erfundenen Geschichte:

An aircraft company discovered that it was cheaper to fly its planes with less fuel on board. The planes would be lighter and use less fuel and money was saved. On rare occasions however the amount of fuel was insufficient, and the plane would crash. This problem was solved by the engineers of the company by the development of a special OOF (out-of-fuel) mechanism. In emergency cases a passenger was selected and thrown out of the plane. (When necessary, the procedure was repeated.)  A large body of theory was developed and many publications were devoted to the problem of properly selecting the victim to be ejected.  Should the victim be chosen at random? Or should one choose the heaviest person? Or the oldest? Should passengers pay in order not to be ejected, so that the victim would be the poorest on board? And if for example the heaviest person was chosen, should there be a special exception in case that was the pilot? Should first class passengers be exempted?  Now that the OOF mechanism existed, it would be activated every now and then, and eject passengers even when there was no fuel shortage. The engineers are still studying precisely how this malfunction is caused.

Quelle: Andries Brouwer – lwn.net/Articles/104185/, Fri, 24 Sep 2004 01:45:20 +0200

Ich bitte vielmals um Entschuldigung. Ich werde mein Überwachungskonzept und einige Konfigurationen anpassen und hoffe, dass so etwas nicht wieder passiert.

Serverausfall vom 14.4.2014

Leider hat es gestern einen unangenehmen Ausfall des Servers gegeben. Um ca. 16:15 Uhr hat mein Hoster die IPv4 Adresse meines Servers gesperrt, da dieser angeblich XMPP S2S Pakete an eine private IPv4 Adresse gesendet hat. Dies konnte ich jedoch nicht nachvollziehen.

Sämtliche Logs waren unauffällig. Matthew Wild (Prosody) hat sich meine Logfiles auch mal angesehen und konnte nichts finden. Keine ungewollten Prozesse, nichts im tcpdump zu finden. Munin zeigt auch keinen ungewöhnlichen Traffic. Der Server war komplett unauffällig.

Gegen 20:45 Uhr hat mein Hoster die IPv4 Adresse dann freundlicherweise wieder freigegeben. Seitdem habe ich permanent einen tcpdump laufen um das im Auge zu behalten.

Hier ist das Logfile welches mir mein Hoster hat zukommen lassen.

Sollte jemand von euch eine Idee haben, bin ich für jeden Tipp dankbar.

Für den gestrigen Ausfall bitte ich um Entschuldigung.

Nachtrag, 15.4.2014 12:20 Uhr: Gerade erhalte ich die Information von meinem Hoster, dass dieser Vorfall bereits am 27.3.2014 von 11:26:27 bis 20:22:04 Uhr stattgefunden hat.
Mein Hoster hat meinen Server am 14.4.2014 also wegen eines Ereignisses gesperrt, welches vor knapp drei Wochen geschehen ist. Da ich meine Logfiles nur zwei Tage aufbewahre kann ich hier nun auch nichts mehr prüfen…

OpenSSL Heartbleed Bug CVE-2014-0160

Wie Golem am 8.4.2014 berichtet hat, gab es seit ca. 2 Jahren eine Sicherheitslücke in OpenSSL. Auch Twattle.net war bis gestern von dieser Sicherheitslücke betroffen. Mittlerweile habe ich die fehlerhafte Version von OpenSSL jedoch gegen eine fehlerbereinigte Version ersetzt.

Als nächstes werde ich die TLS Zertifikate erneuern. Hier warte ich zur Zeit auf eine Information von StartSSL (StartCom Ltd.) ob sie die Erneuerung der Zertifikate im Zusammenhang mit dem Heartbleed Bug kostenlos anbieten werden.
Zur Zeit sieht dies nicht so aus, aber bis zum Wochenende werde ich trotzdem noch abwarten.

Weitere Informationen über den Heartbleed Bug gibt es drüben bei Golem:

Neuer Server

Heute ist Twattle.net auf einen neuen Server umgezogen. Es sollten alle Dienste soweit laufen. Sollte es Probleme geben bitte ich um einen Hinweis.

Der Server hat durch den Umzug auch neue IP-Adressen bekommen. Es kann etwas dauern, bis die neuen Adressen im gesamten DNS bekannt sind.
Die neuen Adressen lauten 88.198.108.242 (IPv4) und 2a01:4f8:d12:f59::2 (IPv6).

Serverausfall

Heute hat es leider den ersten langen Serverausfall seit Inbetriebnahme gegeben.

Bei meinem Hoster gab es Probleme auf dem vHost, auf dem auch mein vServer läuft. Durch den Absturz gab es dann Fehler im Dateisystem, die leider nicht vollständig behoben werden konnten.

Ich habe Datensicherungen von den Datenbanken und von den wichtigen Konfigurationsdateien. Die Dienste (XMPP, Mumble, Website usw.) laufen erstmal alle wieder.

Allerdings werde ich nun parallel einen neuen Server aufsetzen und in den nächsten Tagen die Dienste auf diesen neuen Server umziehen und den alten Server danach abschalten.

Wenn es soweit ist werde ich das hier bekannt geben.

Ich bitte für den entstandenen Probleme um Entschuldigung und werde versuchen den neuen Server schnellstens einzurichten und zu aktivieren.

Heutige Downtime

Heute Morgen um kurz nach 8 Uhr hat mich mein Hoster darüber informiert, dass dringende Wartungsarbeiten an dem vHost durchgeführt werden müssen, auf dem auch Twattle.net läuft.
Die Wartungsarbeiten waren von 9 – 11 Uhr geplant, was zur Folge hatte, dass ich keine Zeit mehr hatte euch zu informieren.
Bitte entschuldigt die Downtime von 9:25 – 9:55 Uhr. Leider hatte ich keinen Einfluss darauf.

In-Band Registrierung deaktiviert

Wegen massenhafter Registrierungen habe ich heute die In-Band Registrierung abgeschaltet. Es ist ab sofort nicht mehr möglich mit einem XMPP Client ein Konto zu registrieren.
In Kürze wird es ein Formular auf dieser Website geben, mit dem Du ganz einfach ein Konto registrieren kannst. Bis dahin ist keine Registrierung mehr möglich.

Heutige Downtime

Heute gab es gegen 19 Uhr Probleme mit dem Server. Die Dateizugriffe wurden plötzlich sehr langsam und die Serverdienste reagierten nicht mehr.

Aus diesem Grund habe ich den Server kurzfristig heruntergefahren um die Dateisysteme zu überprüfen. Nachdem alles überprüft war ist der Server dann nach ca. 30 Minuten wieder ans Netz gegangen.

Ich bitte den ungeplanten Ausfall zu entschuldigen.