Anfang dieses Monats hatten einige Microsoft Cloud-Dienste einen unerwarteten Ausfall. Es betraf nicht alle Regionen weltweit und war kein direkter Dienstfehler, sondern ein Problem mit der Authentifizierungsplattform Azure Active Directory.
Die schlechten Teile
Ich habe das Problem festgestellt, als auf meinem Telefon ein Fehler angezeigt wurde, dass ich mich nicht bei meinem Office 365-Konto anmelden konnte, um meine E-Mails abzurufen. „Der Dienst ist vorübergehend nicht verfügbar. Bitte versuchen Sie es später noch einmal. " Ich war neugierig, ob mein Telefon nur fehlerhaft war oder ob dies ein Symptom für einen globalen Ausfall war, und versuchte, mich auf meinem PC bei office.com anzumelden. Es gibt nichts Schöneres, als einen Fehler zu erhalten, dass Ihre Organisation nicht existiert. Wie jeder gute Systemadministrator habe ich auch Twitter und verschiedene Ausfallwebsites überprüft. Erste Berichte schienen darauf hinzudeuten, dass der Ausfall nur in der APAC-Region gemeldet wurde, bis ich Tweets aus Südamerika, Großbritannien und den Niederlanden sah. Dann berichtete jemand, dass er nicht auf das Azure-Portal oder Branchenanwendungen zugreifen konnte, die Azure Active Directory zur Authentifizierung verwenden.
Das Twitter-Konto von Microsoft Office Status bestätigte, dass ein Problem bekannt war, aber das war das Ausmaß. Irgendwann wurde uns gesagt, wir sollten MO133518 auf Details überprüfen… die sich im Office 365-Verwaltungsbereich befanden… auf die wir uns aufgrund des Ausfalls nicht erfolgreich anmelden konnten, um darauf zuzugreifen. Auf answers.microsoft.com wurde einem Benutzer gesagt, er solle sich auf das Service Health Dashboard (SHD) beziehen, um Informationen zu erhalten. Anschließend wurde der Thread geschlossen. Auch hier befindet sich der SHD hinter einem Authentifizierungstor. Es dauerte auch eine Weile https://status.office.com Zu aktualisieren von "Derzeit sind keine Probleme bekannt, die Sie daran hindern, sich bei Ihrem Office 365-Dienstzustands-Dashboard anzumelden." Keine Probleme, außer dass jeder betroffene Office 365-Administrator auf Twitter schreit.
Die guten Teile
In Australien war es Freitagabend, so dass die Auswirkungen von APAC-Ausfällen auf die APAC-Region minimiert wurden, aber andere, die an ihrem Freitag aufwachten, hatten nicht so viel Glück.
In dem Bericht zur Überprüfung nach einem Vorfall wurde angegeben, dass "ein Codeproblem dazu führte, dass Datenobjekte in der Authentifizierungsinfrastruktur an einen falschen Speicherort verschoben wurden, was zu Authentifizierungsfehlern führte." Stellen Sie sich vor, Sie verschieben eine Datei und dann funktioniert Ihre Verknüpfung nicht. Obwohl wir nicht sagen können, ob das Codeproblem ein menschlicher Fehler war, gab es zweifellos eine Reihe hochqualifizierter Menschen, die sich darauf konzentrierten, die Ursache zu finden und zu beheben. Während ich mich zurücklehnte und Sea of Thieves auf der Xbox spielte. Die Gesamtausfallzeit betrug etwas mehr als 3 Stunden. Angesichts der Komplexität von Azure Active Directory und der zugrunde liegenden Infrastruktur ist dies nicht schlecht. Es ist nicht erstaunlich, und Sie könnten für mehr Redundanz argumentieren, aber manchmal hilft sogar zusätzliche Redundanz nicht, abhängig von der Grundursache. Manchmal sind nur hochqualifizierte Personen erforderlich, um die Puzzleteile zusammenzusetzen und den Gremlin im System zu finden. Und dafür zahlen wir jeden Monat einen sehr kleinen Betrag an Microsoft.
[wp_ad_camp_1]
Die Unterrichtsstunden
Kommunikation: - Microsoft muss seinen Kommunikationsplan aktualisieren, um festzustellen, dass Ausfälle vom Typ "Ich kann mich nicht anmelden" bedeuten, dass niemand Zugriff auf das Admin-Portal oder SHD hat. Es scheint, dass Twitter das Medium der Wahl für Ausfallkommunikation geworden ist, weil es nicht so ist, als könnten sie Ihnen eine E-Mail senden und sie werden nicht jeden anrufen. Wir würden uns auch mit einer Service-Statusseite zufrieden geben, auf der Sie sich nicht anmelden müssen. Ich werde mich jedoch nicht über den Grad oder die Häufigkeit von Informationen beschweren, da ich einer dieser Systemadministratoren am empfangenden Ende von war ein Ausfall. Sie können eine Stunde oder länger warten und wissen immer noch nicht, was aus Microsoft-Sicht vor sich geht. Und Sie möchten die Fehlerbehebung nicht beenden, um Statusberichte aufzurufen oder dem PR-Team die Dinge zu erklären. Der Bericht zur Überprüfung nach Vorfällen gibt uns einen guten Überblick über den Zeitplan, eine allgemeine Erklärung der Ursache und die Verpflichtung, ähnliche Probleme in Zukunft zu verhindern.
Geduld - Schreien auf Twitter hilft Ingenieuren nicht, Probleme schneller zu beheben (wer wusste das?) Ja, es ist frustrierend. Es kann für den Anbieter sogar hilfreich sein, das Ausmaß des Problems zu erkennen, obwohl es nicht lange dauert, bis er herausgefunden hat, welcher Teil des Systems ausgefallen ist und wie viele Organisationen betroffen wären. Es hilft definitiv nicht zu schreien, dass Microsoft Mist ist und Sie zu GSuite wechseln. Was hilft, ist sich darauf zu konzentrieren, was Sie in der Zwischenzeit tun können. Was mich zu meinem nächsten Punkt bringt ...
Geschäftskontinuität - Warum erwarten wir, dass die Cloud immer 100% perfekt ist? Liegt es daran, dass das Marketingmaterial diese Geschichte verkaufen möchte? Hilft es uns, uns besser zu fühlen, wenn wir von unserer eigenen Infrastruktur abgewandert sind? Ausfälle passieren. Sie passieren Google, sie passieren AWS und Microsoft. Es ist der Computer eines anderen mit vielen beweglichen Teilen und die Menschen sind dafür verantwortlich. Wie unsere eigene Infrastruktur sind wir es dem Unternehmen schuldig, sie über ihren Business Continuity Plan zu informieren. Wenn Sie zu SaaS gewechselt sind, benötigen Sie noch BCP. Dies kann bedeuten, dass Ihr Helpdesk die Benutzer auffordert, Outlook in den Offline-Modus zu schalten, damit sie die vorhandenen Daten ohne ständige Verbindungsfehler verwenden können. Es könnte auch die Umstellung auf manuelle Prozesse oder Anweisungen auf Papier beinhalten. Dazu gehört möglicherweise auch das Versenden einer eigenen Benachrichtigung an Ihre Kunden, in der sie gebeten werden, Sie wegen dringender Probleme anzurufen. Wenn Sie auf Twitter schreien, dass dies Sie Millionen kostet (wahre Geschichte), möchten Sie sich vielleicht auf diesen letzten Punkt konzentrieren.
Für mehr Informationen
Microsoft hat Updates für das Service Health Dashboard (in Ihrem Office 365-Verwaltungsportal) unter der ID MO133518 veröffentlicht. Möglicherweise müssen Sie auf Verlauf anzeigen klicken und Letzte 30 Tage auswählen oder in die Suchleiste eingeben, um ihn zu finden. Es enthält auch einen Link zum Post Incident Report. Darüber hinaus ist MO133811 für Organisationen erschienen, die tatsächlich von dem Ausfall betroffen waren.