Очень немногим из нас в индустрии веб-хостинга когда-либо понадобится масштабироваться до уровня, который обеспечивают такие сервисы, как Dropbox. С учетом вышесказанного, когда служба размером с Dropbox делает ошибку, которая приводит к сбою, стоит обратить внимание на причины и последствия, чтобы увидеть, есть ли какие-то потенциальные уроки, которые можно извлечь.
10 января Dropbox отключился. Пользователи не могли синхронизировать свои папки, и поэтому они не могли получить доступ к своим файлам на многих устройствах. Служба не работала большую часть вечера пятницы, и у пользователей были проблемы с доступом к своим файлам в течение выходных.
Of course, the media was full of speculation about potential causes for the outage, with many focusing on a possible DDoS attack. On the following Monday, Dropbox released a statement that went into detail about the causes of the outage, which dismissed the idea of an атака хакеров и вместо этого обвинил неправильный процесс обновления.
В день сбоя Dropbox выполнял запланированное резервное копирование ОС. Как вы можете себе представить, обновление тысяч серверов, которые использует Dropbox, отнюдь не простая задача. Большая часть процесса автоматизирована с помощью сценариев, которые могли быть причиной простоя.
Ключевой урок здесь, как подробно рассказал начальник отдела инфраструктуры Dropbox Акхил Гупта, заключается в том, что если вы собираетесь выполнить обновление, вы должны быть абсолютно уверены, в каком состоянии находится сервер. Чтобы предотвратить повторение той же ошибки, В Dropbox реализован дополнительный уровень проверок, так что сервер будет проверять собственное состояние перед выполнением команд, а не слепо выполнять входящие инструкции независимо от того, что он делает, когда получает их.
Это не упоминается в посмертном инциденте, но сбоя, вероятно, можно было бы избежать с помощью более тщательного тестирования. Отключение Dropbox является напоминанием о том, что может произойти, когда бизнес быстро масштабирует свою инфраструктуру. Масштабирование становится основной целью, а тестирование в некоторой степени отходит на второй план.
Более строгий подход к тестированию и проверке сценариев автоматизации, возможно, уловил «тонкую ошибку» до того, как она привела к хаосу.
О Грэме Колдуэлле - Грэм работает в качестве входящего в InterWorxреволюционная панель управления веб-хостингом для тех, кому нужна масштабируемость и надежность. Следите за InterWorx в Твиттере на @interworx, Как они на facebook и проверить их блог, http://www.interworx.com/community.