ДОЛЯ

ДОЛЯ

ДОЛЯ

ЧАСЫ

Уроки, которые можно извлечь из недавнего сбоя Dropbox

Очень немногим из нас в индустрии веб-хостинга когда-либо понадобится масштабироваться до уровня, который обеспечивают такие сервисы, как Dropbox. С учетом вышесказанного, когда служба размером с Dropbox делает ошибку, которая приводит к сбою, стоит обратить внимание на причины и последствия, чтобы увидеть, есть ли какие-то потенциальные уроки, которые можно извлечь.

10 января Dropbox отключился. Пользователи не могли синхронизировать свои папки, и поэтому они не могли получить доступ к своим файлам на многих устройствах. Служба не работала большую часть вечера пятницы, и у пользователей были проблемы с доступом к своим файлам в течение выходных.

Of course, the media was full of speculation about potential causes for the outage, with many focusing on a possible DDoS attack. On the following Monday, Dropbox released a statement that went into detail about the causes of the outage, which dismissed the idea of an атака хакеров и вместо этого обвинил неправильный процесс обновления.

В день сбоя Dropbox выполнял запланированное резервное копирование ОС. Как вы можете себе представить, обновление тысяч серверов, которые использует Dropbox, отнюдь не простая задача. Большая часть процесса автоматизирована с помощью сценариев, которые могли быть причиной простоя.

Ключевой урок здесь, как подробно рассказал начальник отдела инфраструктуры Dropbox Акхил Гупта, заключается в том, что если вы собираетесь выполнить обновление, вы должны быть абсолютно уверены, в каком состоянии находится сервер. Чтобы предотвратить повторение той же ошибки, В Dropbox реализован дополнительный уровень проверок, так что сервер будет проверять собственное состояние перед выполнением команд, а не слепо выполнять входящие инструкции независимо от того, что он делает, когда получает их.

Это не упоминается в посмертном инциденте, но сбоя, вероятно, можно было бы избежать с помощью более тщательного тестирования. Отключение Dropbox является напоминанием о том, что может произойти, когда бизнес быстро масштабирует свою инфраструктуру. Масштабирование становится основной целью, а тестирование в некоторой степени отходит на второй план.

Более строгий подход к тестированию и проверке сценариев автоматизации, возможно, уловил «тонкую ошибку» до того, как она привела к хаосу.

О Грэме Колдуэлле - Грэм работает в качестве входящего в InterWorxреволюционная панель управления веб-хостингом для тех, кому нужна масштабируемость и надежность. Следите за InterWorx в Твиттере на @interworx, Как они на facebook и проверить их блог, http://www.interworx.com/community.

 


Рекомендуемые посты

Tech LIFT

7 Ways Tariffs Will Impact Data Centers

Tariffs will affect data centers and the broader economy. Impacted data center operations include equipment sourcing, facility location choices, and strategic decision making.  Data

введите информацию ниже, чтобы скачать технический документ

Руководство по миграции ЦОД

введите информацию ниже, чтобы скачать технический документ

Руководство по безопасности центра обработки данных

введите информацию ниже, чтобы скачать технический документ

Лучшие практики для перемещения ИТ-отдела в центр обработки данных

введите информацию ниже, чтобы скачать технический документ

Лучшие практики для обработки оборудования ЦОД

введите информацию ниже, чтобы скачать технический документ

План действий по консолидации центров обработки данных

введите информацию ниже, чтобы скачать технический документ

Покупка устройства подъема ЦОД