Archiv für das Schlagwort (Tag): 'Ausfall'

Aug

8

Gebrauchte Tage: Oder was kann alles schiefgehen…

Kategorie(n): Sonstiges - Kommentar schreiben

Frei nach „Murphy’s Law“: Wenn etwas schiefgeht, dann so richtig. Und so in etwa war mein gestriger Tag. Angefangen hat es damit, das ich wiedereinmal vergeblich auf eine S-Bahn warten durfte. Ansagen kommen i.d.R. erst weit nach der eigentlichen Abfahrtszeit (wenn überhaupt) und somit zu spät um auf Alternativen umzusteigen. Nunja, wie auch immer… bei der Rückfahrt wieder das gleiche Spiel. Grund für die Ausfälle, eine völlig überraschende Weichenstörung die schon seit mind. 24h bestand (aber so schnell kann man darauf ja nicht reagieren). In der Zwischenzeit wurde nun bekannt gegeben, dass die Störung noch bis mind. 16. August besteht (super, bis gestern Abend hoffte man noch, die Störung schnellst möglich beheben zu können).

Aber der Tag war lange nicht um, kaum wieder zuhause erreichte mich die Nachricht, „Der Mailserver geht nicht“. Jegliche Versuche von mir remote darauf zuzugreifen schlugen fehl. Der Server (n Dual Opteron mit 16GB Ram und entsprechend einigen XEN DomU’s) verweigerte jegliche (Mit)Arbeit. Selbst ein (mehrfacher) Reboot brachte keinen Erfolg (auch der RAID-Kontroller meldete keine Probleme). Glücklicherweise liess der Server sich nach einigen Versuchen überreden, Knoppix von CD zu booten (was anderes war gerade nicht vor Ort). Ergo kam ich an die Platten und damit an die aktuellen Daten heran. Beim Packen/Kopieren der Daten hatte ich bei tar dummerweise nicht aufgepasst (ich hatte –numeric-owner vergessen) und somit liessen sich die DomU’s auf einer Ersatzmaschine zwar starten, aber so wirklich ihren Dienst wollten sie nicht verrichten (es stimmten die Datei/Verzeichnissbesitzer einfach nicht mehr). Wie auch immer, auch der Misserfolg (dummerweise dauert das Packen/Kopieren von >50GB doch ein bischen mehr Zeit) konnte mich nicht davon abbringen die 2 wichtigsten DomU’s auf der Erstazmaschine schlussendlich zum Laufen zu bekommen. Alles toll? Denkste, nun wurde der ursprüngliche Server nochmals rebootet und siehe da, er lief wieder ohne Probleme *narf* und ich hatte mir die Mühe gemacht, alles umzuziehen… Zum Glück hatte ich die restlichen DomU’s noch nicht auf dem Ersatzserver eingerichtet. Momentan laufen also 2 DomU’s auf dem Ersatzserver und der Rest noch auf dem eigentlichen Server. Viel Zeit für nichts? Wer weiss, der Server wird nun von mir erstmal noch genauer beobachtet :)

Vorgewarnt, hab ich dann gestern Abend nichts mehr wichtiges angefangen und bin schlafen gegangen.

Unglücklicherweise rechnet Murphy wohl aber nicht in Kalendertagen sondern in 24h Einheiten. Und so durfte ich heute Morgen im Monitoring auch gleich die 100% CPU-Auslastung eines Webservers zur Kenntnis nehmen. Top lieferte auch gleich den Schuldigen, MySQL krallte sich soviel CPU-Power wie nur möglich. Doch wer war der eigentliche Übeltäter. Dank der Einbindung von PHP via FastCGI wurde auch hier schnell ein Prozess ausgemacht. Und schwupps, kaum war die Webseite vom Netz, war auf dem Server wieder alles ruhig. Die Analyse der Logfiles brachte dann dann einen Angriff auf die Webseite über eine IP aus dem lateinamerikanischen Raum zu Tage. Achja, vll. sollte ich noch erwähnen, der Angriff war (zum Glück) eher erfolglos, ausser das der Server über Minuten hinweg mit der 100%-tiger CPU-Last zu kämpfen hatte, ist nichts kaputt gegangen…

Fazit: Die 24h sind nun endlich rum, und ich genehmige mir nun erstmal mein Frühstück :)

Mai

10

Diese Rufnummer ist uns nicht bekannt…

Kategorie(n): Service - 6 Kommentare

… bitte Fragen Sie bei der Auskunft nach.

Diesen Satz bekommt man derzeit (seit Gestern Nachmittag ca 14:30Uhr) zu hören, wenn man versucht mich auf dem Festnetz anzurufen. Stand gestern Abend (ca 18Uhr), laut der Alice-Hotline: „Es liegt in ihrem Vorwahlgebiet ein generelles Problem vor, ein Routingserver ist ausgefallen, unsere Techniker arbeiten mit Hochdruck an der Behebung. In 2-3 Stunden dürfte das Problem behoben sein).

Nachdem dann heute Morgen noch immer die selbe Ansage kam, habe ich nochmals angerufen… Der freundliche Mitarbeiter von Alice wollte mir einen neuen Splitter zuschicken, da er mich nach dem entfernen des Splitters ja anrufen konnte (nicht das er es vor dieser Massnahme schoneinmal versucht hätte). Aber man denkt ja mit, und probiert es vom Handy aus auch selbst, und dort kommt weiterhin die gleiche Ansage. Damit waren die Möglichkeiten des Firstlevel-Support aber auch schon ausgeschöpft und nun sollte die Technik weiterhelfen. Dort konnte/wollte man mir nur einen Rückruf eines Technikers vll. noch heute Abend, aber eher morgen Früh „versprechen“. Damit war ich nicht so ganz einverstanden, und nach längerem hin und her – und solchen Sätzen wie, bei Ihrem Anschluss besteht kein Anspruch auf eine Entstörung innerhalb von 2h etc… Auf meine Hinweise, das ich das Problem ja schon am Abend zuvor gemeldet habe und das eine derartige Ansage auch sehr irreführend für mögliche Anrufer ist – wollte man sich dringlichst um das Problem kümmern und hat dann zumindest zugesagt, man melde sich in Kürze…

Der Anruf kam dann auch ca 2h später, allerdings wurde diesmal der Schwarze Peter an die Telekom weitergegeben, denn – so erklärte man mir die Situation – für das Routing aller netzexternen Anrufe (sprich alles ausserhalb des Alice-Netzes) zeichnet sich die Telekom verantwortlich. Es wurde auch gleich in Aussicht gestellt, dass das Problem durch die Telekom wohl heute nicht mehr behoben wird und Alice da auch nichts machen könnte. Eine Entschädigung oder dergleichen ist in einem solchen Fall ersteinmal nicht vorgesehen, sofern man daran interessiert ist, muss man sich selbst nocheinmal kümmern und zwar an anderer Stelle (praktische Methode, nicht besonders Kundenfreundlich, aber betriebswirtschaftlich – in kurzfristiger Sicht – bestimmt nachvollziehbar).

Wie auch immer, das Problem besteht nun seit mehr als 24h und ich hab keine Ahnung, wer durch die Ansage vll. schon verschreckt wurde. Was ist z.B. wenn ein potentieller neuer Arbeitgeber einen zu einem persönlichen Gespräch einladen möchte/ bzw. nach einem solchen nochmals anruft, wer weiss, wie schnell man bei sowas dann aus dem Rennen ist.

… und überhaupt, wie oft kommt sowas denn vor, ohne das man es mitbekommt? (Alice z.B. hat sich z.B. bei uns nicht gemeldet, als bei Ihnen das Problem bekannt war (intern ging wohl Freitag gegen 14Uhr eine Rundmail bzgl. eines ausgefallenen Routingservers rum)… Man bekommt erst eine Bestätigung des Problems, wenn man sich selbst meldet. Vll. wartet hier in der Gegend auch noch immer Jemand auf einen „wichtigen“ anruf, weil ihn Niemand darauf aufmerksam gemacht hat, dass das Problem besteht).

Was meint Ihr, muss ein Telekommunikationsanbieter seine Kunden auf Probleme hinweisen? (insbesondere, wenn die vertragliche vereinbarten Leistungen nicht erbracht werden)

Archiv

Zufällige Bilder

  • Lichtstärke: M1 - Energiesparmodus - zentraler Fokus
  • LED Lenser M1 - Lieferumfang
  • vimeo3

Kommentare (28 Tage)

Sonstiges


Bloggeramt.de