Archiv für das Schlagwort (Tag): 'Störung'

Aug

8

Gebrauchte Tage: Oder was kann alles schiefgehen…

Kategorie(n): Sonstiges - Kommentar schreiben

Frei nach „Murphy’s Law“: Wenn etwas schiefgeht, dann so richtig. Und so in etwa war mein gestriger Tag. Angefangen hat es damit, das ich wiedereinmal vergeblich auf eine S-Bahn warten durfte. Ansagen kommen i.d.R. erst weit nach der eigentlichen Abfahrtszeit (wenn überhaupt) und somit zu spät um auf Alternativen umzusteigen. Nunja, wie auch immer… bei der Rückfahrt wieder das gleiche Spiel. Grund für die Ausfälle, eine völlig überraschende Weichenstörung die schon seit mind. 24h bestand (aber so schnell kann man darauf ja nicht reagieren). In der Zwischenzeit wurde nun bekannt gegeben, dass die Störung noch bis mind. 16. August besteht (super, bis gestern Abend hoffte man noch, die Störung schnellst möglich beheben zu können).

Aber der Tag war lange nicht um, kaum wieder zuhause erreichte mich die Nachricht, „Der Mailserver geht nicht“. Jegliche Versuche von mir remote darauf zuzugreifen schlugen fehl. Der Server (n Dual Opteron mit 16GB Ram und entsprechend einigen XEN DomU’s) verweigerte jegliche (Mit)Arbeit. Selbst ein (mehrfacher) Reboot brachte keinen Erfolg (auch der RAID-Kontroller meldete keine Probleme). Glücklicherweise liess der Server sich nach einigen Versuchen überreden, Knoppix von CD zu booten (was anderes war gerade nicht vor Ort). Ergo kam ich an die Platten und damit an die aktuellen Daten heran. Beim Packen/Kopieren der Daten hatte ich bei tar dummerweise nicht aufgepasst (ich hatte –numeric-owner vergessen) und somit liessen sich die DomU’s auf einer Ersatzmaschine zwar starten, aber so wirklich ihren Dienst wollten sie nicht verrichten (es stimmten die Datei/Verzeichnissbesitzer einfach nicht mehr). Wie auch immer, auch der Misserfolg (dummerweise dauert das Packen/Kopieren von >50GB doch ein bischen mehr Zeit) konnte mich nicht davon abbringen die 2 wichtigsten DomU’s auf der Erstazmaschine schlussendlich zum Laufen zu bekommen. Alles toll? Denkste, nun wurde der ursprüngliche Server nochmals rebootet und siehe da, er lief wieder ohne Probleme *narf* und ich hatte mir die Mühe gemacht, alles umzuziehen… Zum Glück hatte ich die restlichen DomU’s noch nicht auf dem Ersatzserver eingerichtet. Momentan laufen also 2 DomU’s auf dem Ersatzserver und der Rest noch auf dem eigentlichen Server. Viel Zeit für nichts? Wer weiss, der Server wird nun von mir erstmal noch genauer beobachtet :)

Vorgewarnt, hab ich dann gestern Abend nichts mehr wichtiges angefangen und bin schlafen gegangen.

Unglücklicherweise rechnet Murphy wohl aber nicht in Kalendertagen sondern in 24h Einheiten. Und so durfte ich heute Morgen im Monitoring auch gleich die 100% CPU-Auslastung eines Webservers zur Kenntnis nehmen. Top lieferte auch gleich den Schuldigen, MySQL krallte sich soviel CPU-Power wie nur möglich. Doch wer war der eigentliche Übeltäter. Dank der Einbindung von PHP via FastCGI wurde auch hier schnell ein Prozess ausgemacht. Und schwupps, kaum war die Webseite vom Netz, war auf dem Server wieder alles ruhig. Die Analyse der Logfiles brachte dann dann einen Angriff auf die Webseite über eine IP aus dem lateinamerikanischen Raum zu Tage. Achja, vll. sollte ich noch erwähnen, der Angriff war (zum Glück) eher erfolglos, ausser das der Server über Minuten hinweg mit der 100%-tiger CPU-Last zu kämpfen hatte, ist nichts kaputt gegangen…

Fazit: Die 24h sind nun endlich rum, und ich genehmige mir nun erstmal mein Frühstück :)

Mai

28

Ein Anruf von Alice…

Kategorie(n): Service - Kommentar schreiben

Nein, leider nicht von dem netten Mädel aus der Werbung und auch Brad Pitt war nicht am Apparat… Es war nur ein freundlicher Mitarbeiter von Alice…

Nachdem die Störung meines Telefonanschlusses nach mehr als 96 Stunden ja endlich behoben wurde am Wochenende dann noch eine zusammenfassende und nachfragende E-Mail an Alice verfasst. Und siehe da, nach 10 Tagen gab es nun eine Antwort. Ein recht freundlicher und plauderwilliger Mitarbeiter hatte sich wirklich Zeit genommen und ist auf die einzelnen Punkte der E-Mail eingegangen und kam zum Fazit, das vieles nicht so gelaufen ist, wie es denn im Normalfall laufen sollte. Wie hoch denn eine Entschädigung aussehen könnte, konnte er mir leider noch nicht verraten, will sich aber darum kümmern. Viel darf man wohl nicht erwarten, da Alice ja nur eine Verfügbarkeit von 98,5% (knapp 5,5 Tage) verspricht, was aktuell noch nicht unterschritten wurde… der Ausfall war ja nur etwas mehr als 4 Tage…

Achja, eine Erklärung, warum die Störungstickets denn geschlossen wurden gabs auch, bei einer Grossstörung werden bei internen Problemen (also Alice intern) die Tickets zusammengefasst und an das Ticket der Grossstörung angehängt, aber das funktioniert wohl leider nicht bei Störungen für die andere beauftragte Unternehmen verantwortlich sind… Warum auch immer genau, das hab ich irgendwie nicht verstanden… Immerhin, unsere Mail soll nun auch noch ans Qualitätsmanagement gehen und vll. bewegt sich ja in Zukunft etwas…

Nundenn, so warte ich nun gespannt auf die Entschädigung…

Archiv

Zufällige Bilder

  • Seagate FreeAgent Go Blau / 320GB
  • BUZZ! - Quiz TV + Wireless Buzzer
  • Fenix PD20 - Lieferumfang

Kommentare (28 Tage)

Sonstiges


Bloggeramt.de