Sehr wenige von uns in der Webhosting-Branche werden jemals die Notwendigkeit haben, auf das Niveau zu skalieren, das Dienste wie Dropbox bieten. Wenn ein Service in der Größe von Dropbox einen Fehltritt macht, der zu einem Ausfall führt, ist es sinnvoll, die Ursachen und Auswirkungen zu untersuchen, um festzustellen, ob möglicherweise Lehren gezogen werden müssen.
Am 10. Januar ging Dropbox offline. Benutzer konnten ihre Ordner nicht synchronisieren und konnten daher auf vielen Geräten nicht auf ihre Dateien zugreifen. Der Dienst war am Freitagabend für einen Großteil der Zeit nicht verfügbar, und Benutzer hatten das ganze Wochenende über Probleme, auf ihre Dateien zuzugreifen.
Of course, the media was full of speculation about potential causes for the outage, with many focusing on a possible DDoS attack. On the following Monday, Dropbox released a statement that went into detail about the causes of the outage, which dismissed the idea of an Angriff von Hackern und stattdessen einen fehlerhaften Update-Prozess verantwortlich gemacht.
Am Tag des Ausfalls führte Dropbox eine geplante Betriebssystemsicherung durch. Wie Sie sich vorstellen können, ist das Aktualisieren der Tausenden von Servern, die Dropbox verwendet, keine leichte Aufgabe. Ein Großteil des Prozesses wird mit Skripten automatisiert, die möglicherweise die Ausfallzeit verursacht haben.
Wie der Leiter der Infrastruktur bei Dropbox, Akhil Gupta, ausführlich erläutert, müssen Sie bei der Durchführung eines Upgrades absolut sicher sein, in welchem Status sich der Server befindet. Dropbox hat eine zusätzliche Überprüfungsstufe implementiert, sodass der Server seinen eigenen Status überprüft, bevor er Befehle ausführt, anstatt eingehende Anweisungen blind auszuführen, unabhängig davon, was er tut, wenn er sie empfängt.
Es wird post mortem des Vorfalls nicht erwähnt, aber der Ausfall hätte wahrscheinlich durch strengere Tests vermieden werden können. Der Dropbox-Ausfall erinnert daran, was passieren kann, wenn ein Unternehmen seine Infrastruktur schnell skaliert. Die Skalierung wird zum vorrangigen Ziel, und das Testen bleibt bis zu einem gewissen Grad auf der Strecke.
Ein strengerer Ansatz zum Testen und Überprüfen von Automatisierungsskripten hat möglicherweise den „subtilen Fehler“ entdeckt, bevor er Chaos anrichtete.
Über Graeme Caldwell - Graeme arbeitet als Inbound-Vermarkter für InterWorx, ein revolutionäres Webhosting-Kontrollfeld für Hosts, die Skalierbarkeit und Zuverlässigkeit benötigen. Folgen Sie InterWorx auf Twitter unter @interworxGefällt mir ihnen auf Facebook und schau dir ihren Blog an, http://www.interworx.com/community.