Поиск
Close this search box.

ДОЛЯ

ДОЛЯ

ДОЛЯ

ЧАСЫ

Уроки, которые можно извлечь из недавнего сбоя Dropbox

Очень немногим из нас в индустрии веб-хостинга когда-либо понадобится масштабироваться до уровня, который обеспечивают такие сервисы, как Dropbox. С учетом вышесказанного, когда служба размером с Dropbox делает ошибку, которая приводит к сбою, стоит обратить внимание на причины и последствия, чтобы увидеть, есть ли какие-то потенциальные уроки, которые можно извлечь.

10 января Dropbox отключился. Пользователи не могли синхронизировать свои папки, и поэтому они не могли получить доступ к своим файлам на многих устройствах. Служба не работала большую часть вечера пятницы, и у пользователей были проблемы с доступом к своим файлам в течение выходных.

Конечно, СМИ были полны предположений о возможных причинах сбоя, многие из которых сосредоточились на возможной DDoS-атаке. В следующий понедельник Dropbox выпустил заявление который подробно описал причины сбоя, который отверг идею атака хакеров и вместо этого обвинил неправильный процесс обновления.

В день сбоя Dropbox выполнял запланированное резервное копирование ОС. Как вы можете себе представить, обновление тысяч серверов, которые использует Dropbox, отнюдь не простая задача. Большая часть процесса автоматизирована с помощью сценариев, которые могли быть причиной простоя.

Ключевой урок здесь, как подробно рассказал начальник отдела инфраструктуры Dropbox Акхил Гупта, заключается в том, что если вы собираетесь выполнить обновление, вы должны быть абсолютно уверены, в каком состоянии находится сервер. Чтобы предотвратить повторение той же ошибки, В Dropbox реализован дополнительный уровень проверок, так что сервер будет проверять собственное состояние перед выполнением команд, а не слепо выполнять входящие инструкции независимо от того, что он делает, когда получает их.

Это не упоминается в посмертном инциденте, но сбоя, вероятно, можно было бы избежать с помощью более тщательного тестирования. Отключение Dropbox является напоминанием о том, что может произойти, когда бизнес быстро масштабирует свою инфраструктуру. Масштабирование становится основной целью, а тестирование в некоторой степени отходит на второй план.

Более строгий подход к тестированию и проверке сценариев автоматизации, возможно, уловил «тонкую ошибку» до того, как она привела к хаосу.

О Грэме Колдуэлле - Грэм работает в качестве входящего в InterWorxреволюционная панель управления веб-хостингом для тех, кому нужна масштабируемость и надежность. Следите за InterWorx в Твиттере на @interworx, Как они на facebook и проверить их блог, http://www.interworx.com/community.

 


Рекомендуемые посты

Tech LIFT

The 7 Top Data Center Trends for 2024

Data centers play a crucial role in allowing enterprises to process, access, and store mission-critical data for their daily operations. As the world sees

введите информацию ниже, чтобы скачать технический документ

Руководство по миграции ЦОД

введите информацию ниже, чтобы скачать технический документ

Руководство по безопасности центра обработки данных

введите информацию ниже, чтобы скачать технический документ

Лучшие практики для перемещения ИТ-отдела в центр обработки данных

введите информацию ниже, чтобы скачать технический документ

Лучшие практики для обработки оборудования ЦОД

введите информацию ниже, чтобы скачать технический документ

План действий по консолидации центров обработки данных

введите информацию ниже, чтобы скачать технический документ

Покупка устройства подъема ЦОД