Systeminstabilität

Hier geht es um die technische Bereitstellung der Plattform - KnowHow im Bereich Virtualisierung und CentOS können sind hier sehr hilfreich
Antworten
following

Ich will mal kurz erläutern, warum der gelbe Kasten auf der Startseite steht und Opencaching.de [url=http://www.flopp.net/oc.html]hin und wieder offline[/url] ist.

Systemkonfiguration

Wir sind im März auf einen Root-Server bei der Firma Hetzner umgezogen, nachdem unser frühere Sponsor Ende 2012 den Vertrag gekündigt hatte. Auf dem alten Server lief eine Virtualisierungsumgebung unter Xen; auf dem neuen ist es KVM/Qemu. In dieser Umgebung laufen diverse virtuelle Maschinen (VMs) unter CentOS:

* ein Webserver für www.opencaching.de
* ein Datenbankserver für www.opencaching.de
* ein Webserver für Forum, Blog und Wiki
* ein Datenbankserver für Forum, Blog und Wiki
* eine vom alten Server portierte VM mit dem Support-Ticketsystem (RT)
* eine noch nicht fertig eingerichtete VM mit Website + Datenbank für unseren [url=http://wiki.opencaching.de/index.php/Entwicklung/Betatest]Softwaretest[/url]
* ein Teamspeak-Server für Telefonkonferenzen

Die Daten werden jede Nacht per ftp auf einen externen Server gesichert, der wiederum vom Webhoster gesichert wird; die Integrität der Backups wird ebenfalls täglich geprüft.

Warum fällt die Seite ab und zu aus?

Weil der Rootserver sich hin und wieder vollständig aufhängt. Wenn ich richtig mitgezählt habe, war das seit dem 7. April siebenmal der Fall.

Welche unmittelbaren Folgen hat das?

Der Server muss von Hand neu gebootet werden. Dabei kann die Integrität der Datenbanken beeinträchtigt werden, d.h. wir müssen anschließend jeweils alle Datenbanken durchprüfen und hin und wieder auch mal einen Index reparieren. Die Datenbanken sind aber grundsätzlich sehr robust gegen solche Ausfälle, also verloren geht dabei nix. (Außer jemand schreibt z.B. exakt in der Sekunde ein Log, wo der Server ausfällt - das Log wird dann nicht mehr ordentlich gespeichert und ist nachher weg. Sowas kam bislang genau einmal bei einem einzigen Log vor.)

Woran liegt das?

Das wissen wir noch nicht. Der Server hinterlässt unverschämterweise keinen Eintrag im Systemlog wenn er hängen bleibt, sodass wir nur raten und uns dem Problem indirekt nähern können.

Grundsätzlich kann es ein Hardwareproblem, ein Problem der Virtualisierungsschicht oder (unwahrscheinlich) ein Instabilität in einer VM sein. Letzteresdürfte eigentlich nicht auf die physikalische Maschine durchschlagen können.

Was wurde bislang unternommen?

Alle verfügbaren Systemprotokolle wurden untersucht. Dabei wurde eine Instabilität im Betriebssystemkern des www.opencaching.de-Webservers entdeckt und beseitigt. Seitdem läuft der neue Webserver (der Apache etc.) wieder genau so zuverlässig wie sein Vorgänger beim alten Provider. Am grundlegenden Problem hat es aber nichts geändert.

Der zweite Schritt war eine Komplettüberprüfung der Hardware. Dazu war Opencaching.de vorletzte Nacht offline. Die Überprüfung war aber ohne Befund, d.h. die Hardware ist wahrscheinlich in Ordnung.

In einem dritten Schritt nehmen wir nun mehrere VMs außer Betrieb, die Anfang April installiert wurden - kurz bevor die Instabilität begann. Das Testsystem und der Teamspeak-Server sind bereits abgeschaltet. Das Ticketsystem ist ein heißer Kandidat als Verursacher der Probleme, weil diese VM als einzige nicht neu aufgesetzt sondern aus der alten Xen-Umgebung portiert wurde. Wir können es aber nicht einfach abschalten, weil dann der Support und Teile der Entwicklungsorganisation ausfallen würden - das braucht also einige zusätzliche Maßnahmen, die nun in Arbeit sind.

Was kann noch unternommen werden?

Notfalls können wir einen zweiten Server anmieten und dort die Webseite in einer weniger komplexen Umgebung neu aufsetzen. Das bedeutet eine erhebliche finanzielle Zusatzbelastung für die Vereinskasse, weil wir bis auf Weiteres zwei Server finanzieren müssten, und es wäre schade um die ganze Arbeit, die in die Einrichtung des derzeitigen Servers gesteckt wurde.

Wann wird das Problem behoben sein?

Das Problem wird behoben, aber da wir das alles in unserer Freizeit nebenher machen und den Fehler noch nicht gefunden haben, können wir keine Zeitabschätzung geben. Die Probleme nerven uns aber selbst sehr, daher versuchen wir, es schnellstens zu lösen.

Kann ich dabei helfen?

Wenn du professionelle Erfahrung mit KVM/Qemu und idealerweise CentOS oder Red Hat hast: ja. Du könntest uns dabei helfen, das Setup der Virtualisierungsumgebung und der VMs zu prüfen; Ansprechpartner dafür ist [url=http://forum.opencaching-network.org/index.php?action=profile;u=630]bohrsty[/url].

Was nicht hilft sind laienhafte Ratschläge oder Vermutungen a la "vielleicht ist die Festplatte kaputt". Wir haben die Probleme bereits mit mehreren Leuten von allen Seiten beleuchtet und solche banalen Ursachen alle schon durchgespielt. Ohne genaue Kenntnis der Systemkonfiguration und des zeitlichen Ablaufs kommt man damit nicht weiter.

Mit deinen [url=http://www.opencaching.de/articles.php?page=donations]Spenden[/url] kannst du uns mehr finanziellen Spielraum verschaffen. Wir könnten z.B. die derzeitige Server-Installation auf Verdacht auf eine neue physikalische Maschine schieben lassen, um Hardwareprobleme 100%ig auszuschließen, aber das kostet Geld. Ebenso der vorläufige Parallelbetrieb von zwei Servern, um den wie möglicherweise nicht herumkommen.
Zuletzt geändert von following am 24.04.2013, 21:13, insgesamt 1-mal geändert.
roamer_ge

Was braucht denn die VM mit dem Support-Ticketsystem (RT) für Ressourcen?
Wenn ich das richtig sehe, wäre doch eine Möglichkeit die verdächtige VM testweise auf einen separaten root Server auszulagern.
following

Die RT-VM ist zurzeit abgeschaltet und wird wohl nicht mehr in Betrieb gehen, außer für Datensicherung/-export; der Support läuft im Notbetrieb. Es war eh geplant, auf einen komfortableren Issue-Tracker umzustellen, wahrscheinlich Redmine. Das wird nun vorgezogen (sobald wir bohrsty dazu überredet haben, Ruby zu installieren :-).
hcy

[quote="following"]
Wir könnten z.B. die derzeitige Server-Installation auf Verdacht auf eine neue physikalische Maschine schieben lassen, um Hardwareprobleme 100%ig auszuschließen, aber das kostet Geld.
[/quote]
Wäre da nicht Hetzner in der Pflicht? Oder reden die sich einfach raus, Hardware ist ok? Der Support dort soll doch so gut sein hört man immer wieder, war ja sicher auch ein Grund diesen Hoster auszuwählen. Dann sollen sie doch mal zeigen was sie können.
following

::)

Siehe mein erstes Posting, Stichwort "Hardware" und "Überprüfung".
Benutzeravatar
Natureshadow / König Moderig
Vereinsmitglied
Vereinsmitglied
Beiträge: 96
Registriert: 17.06.2012, 00:50

Also wenn ihr einen erfahrenen und zertifizierten Admin braucht, könnt ihr mich gerne anfragen.

-nik
[url=http://www.opencaching.de/viewprofile.php?userid=161483][img]http://www.opencaching.de/statpics/DE/161483.jpg[/img][/url]
hcy

[quote="following"]
::)

Siehe mein erstes Posting, Stichwort "Hardware" und "Überprüfung".
[/quote]
Ja das steht "die Hardware ist wahrscheinlich in Ordnung". Wenn das jetzt ein guter Hoster wäre würde er doch anbieten, das ganze trotzdem noch mal für eine begrenzte Zeit auf einer anderen Hardware zu versuchen (würde ich meinen).
roamer_ge

[quote="following"]
Die RT-VM ist zurzeit abgeschaltet und wird wohl nicht mehr in Betrieb gehen, außer für Datensicherung/-export; der Support läuft im Notbetrieb. Es war eh geplant, auf einen komfortableren Issue-Tracker umzustellen, wahrscheinlich Redmine. Das wird nun vorgezogen (sobald wir bohrsty dazu überredet haben, Ruby zu installieren :-).
[/quote]

Okay, wenn die VM eh schon aus ist und ihr was neues aufsetzt, dann macht es kein Sinn euch temporär Kapazitäten auf einem root-server zur Verfügung zu stellen.
Benutzeravatar
Natureshadow / König Moderig
Vereinsmitglied
Vereinsmitglied
Beiträge: 96
Registriert: 17.06.2012, 00:50

[quote="hcy"]
[quote="following"]
::)

Siehe mein erstes Posting, Stichwort "Hardware" und "Überprüfung".
[/quote]
Ja das steht "die Hardware ist wahrscheinlich in Ordnung". Wenn das jetzt ein guter Hoster wäre würde er doch anbieten, das ganze trotzdem noch mal für eine begrenzte Zeit auf einer anderen Hardware zu versuchen (würde ich meinen).
[/quote]

Ist es aber nicht. Ist Hetzner.
[url=http://www.opencaching.de/viewprofile.php?userid=161483][img]http://www.opencaching.de/statpics/DE/161483.jpg[/img][/url]
erdbot

Sever aktuell down?
Steingesicht

hier grad nicht
following

Der Datenbankserver hat ein paar Minuten lang gestreikt - das ist wieder ein anderes Problem, kommt alle 1-2 Wochen mal vor und braucht keinen manuellen Eingriff - der Server kommt schnell von alleine wieder. Hat im Moment niedrige Priorität nach der Ursache zu suchen.

Seit dem Abschalten der RT-VM läuft der Rootserver durch, aber es ist noch zu früh um Entwarnung zu geben.
Antworten