Hyvin harvoilla meistä web-hosting-alalla on koskaan tarvetta skaalata Dropboxin kaltaisten palvelujen tasolle. Tämän sanottuaan, kun Dropbox-kokoinen palvelu tekee virheen, joka johtaa seisokkeihin, kannattaa kiinnittää huomiota syihin ja vaikutuksiin, jotta voidaan nähdä, onko mahdollista opittavaa.
10. tammikuuta Dropbox siirtyi offline-tilaan. Käyttäjät eivät pystyneet synkronoimaan kansioitaan, joten he eivät päässeet tiedostoihinsa monilla laitteilla. Palvelu oli poissa pääosin perjantai-iltana, ja käyttäjillä oli vaikeuksia käyttää tiedostojaan koko viikonlopun ajan.
Of course, the media was full of speculation about potential causes for the outage, with many focusing on a possible DDoS attack. On the following Monday, Dropbox released a statement that went into detail about the causes of the outage, which dismissed the idea of an hakkereiden hyökkäys ja syytti sen sijaan viallista päivitysprosessia.
Katkospäivänä Dropbox suoritti ajoitettua käyttöjärjestelmän varmuuskopiota. Kuten voitte kuvitella, Dropboxin käyttämien tuhansien palvelinten päivittäminen ei ole millään tavalla helppoa. Suuri osa prosessista on automatisoitu skripteillä, mikä on saattanut aiheuttaa seisokkeja.
Tärkein oppitunti, jonka Dropboxin infrastruktuuripäällikkö Akhil Gupta on kuvannut, on, että jos aiot tehdä päivityksen, sinun on oltava täysin varma, missä tilassa palvelin on. Jotta sama virhe ei toistu, Dropbox toteutti ylimääräisen tason tarkistuksia, jotta palvelin tarkistaa oman tilansa ennen komentojen suorittamista sen sijaan, että suorittaisi sokeasti saapuvia ohjeita riippumatta siitä, mitä se tekee, kun se vastaanotetaan.
Sitä ei mainita tapahtuman kuolemantapauksessa, mutta seisokki olisi todennäköisesti voitu välttää tarkemmalla testauksella. Dropbox-katkos on muistutus siitä, mitä voi tapahtua, kun yritys laajentaa nopeasti infrastruktuuriaan. Skaalautumisesta tulee ensisijainen tavoite, ja testaus jää tietyssä määrin sivuun.
Tarkempi lähestymistapa automaatio-komentosarjojen testaamiseen ja tarkistamiseen on saattanut saada kiinni "hienovaraisesta virheestä" ennen sen tuhoa.
Tietoja Graeme Caldwellista - Graeme toimii saapuvana markkinoijana InterWorx, vallankumouksellinen web-hosting-ohjauspaneeli isännille, jotka tarvitsevat skaalautuvuutta ja luotettavuutta. Seuraa InterWorxia Twitterissä osoitteessa @interworx, Kuten he Facebook ja tutustu heidän blogiinsa, http://www.interworx.com/community.