Magic Numbers…

Eigentlich hatte ich mir diesen speziellen Freitag extra geblockt für eine OpenShift4 Bare-Metal Installation, aber Ihr kennt den Spruch ja: Erstens kommt es anders und zweitens als man denkt. Daher werde ich über meine Erfahrungen mit RedHat ein anderes Mal berichten.

Morgens an besagtem Freitag rief ein Kollege an mit dem üblichen Satz, den Techniker fürchten gelernt haben: Guck doch mal bitte kurz. Das ist ein Fall für die typischen 5 Minuten. War aber leider auch wichtig, schließlich stand eine kritische Anwendung auf dem Produktivsystem still und nichts ging mehr. Ich machte mich also auf die Suche, stellte das Problem nach und versuchte, Ursachen zu finden. Da der Fehler von heute auf morgen ohne Veränderung am Programm auftrat, tippte ich auf eine Datenkonstellation, die für das Programm problematisch ist, was der Grund für den Absturz sein könnte.

Wir hätten für sowas vielleicht auch einen schicken Blue-Screen einbauen sollen, das sind Windows-Anwender ja seit Jahrzehnten gewohnt und dann weiß gleich jeder, was los ist. Tja, die Daten waren es jedenfalls nicht – da sah alles gut aus. Die Software war unverändert. Fehlverhalten von Anwendern konnten wir diesmal auch ausschließen. Ich hole einen zweiten Kollegen dazu, der damals ebenfalls am Projekt beteiligt war. Wir können uns beide keinen Reim draus machen und Ratlosigkeit macht sich breit.

Ach so, sagte ich schon, dass es ein Freitag war? Und noch dazu Brückentag – das macht dann am meisten Spaß, weil gefühlt alle anderen im Urlaub sind. Und genau das wurde jetzt auch zum Problem, denn wir konnten mittlerweile ausschließen, dass es an der Software oder den Daten lag. Also auf die Suche nach Umgebungsveränderungen – es schien aber so, dass keine Windows-Updates durchgelaufen waren. Und selbst wenn, kurzfristig könnten wir das nicht zurückdrehen für mehrere tausend Benutzer.

Dann kommt der berühmte Moment, in dem die ersten Führungskräfte eingeschaltet werden und mal kurz eine Teams-Session anberaumt wird. Als wir dann über Alternativen und Workarounds nachdenken, kommt mir noch eine Ahnung, die aber nur vage ist. Zum Hintergrund: Moderne Software hat vielleicht 20% eigenen Code und 80% Code, der über Abhängigkeiten der Software zugeladen wird. Bspw. wird niemand heute für eine Büro-Anwendung den sicheren Datenaustausch via SSL und HTTP selbst bauen – dafür kommen dann spezielle Bibliotheken zum Einsatz. Und bei einer dieser Bibliotheken haben wir dann die Version auf eine höhere Variante aktualisiert. Das könnte zwar ungewünschte Seiteneffekte haben, aber wenn nix mehr geht, zählt jeder Strohhalm.

Ok, Ergebnis: aus Version 11 mach Version 15 – Jubel, läuft. In der Nachanalyse sind wir dann zu der Erkenntnis gekommen, dass die Schnittstelle zwischen Windows und Java (von uns für das Programm verwendet) scheinbar durch ein automatisches Betriebssystem-Update geändert wurde. Die Erkenntnis daraus: Man kann noch so viel automatisieren, Hosting und IT-Infrastruktur-Management sind komplex und es entstehen viele neue Betätigungsfelder. Es ist mitnichten so, dass mehr Automatisierung immer auch Jobs kostet. Meine ersten Artikel für den Harlekin hatten schon dieses Thema, und ich werde wohl in den nächsten Wochen/Monaten nochmal darauf zurückkommen. Bis dahin: Plant Zeit für Updates ein!

Bildquellen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert