Pesquisar
Close this search box.

COMPARTILHAR

COMPARTILHAR

COMPARTILHAR

ASSISTIR

Lições a serem aprendidas com a recente interrupção do Dropbox

Muito poucos de nós no setor de hospedagem na web precisarão escalar para o nível que serviços como o Dropbox fazem. Dito isso, quando um serviço do tamanho do Dropbox dá um passo em falso que leva a uma interrupção, vale a pena prestar atenção às causas e ao impacto para ver se há lições em potencial a serem aprendidas.

Em 10 de janeiro, o Dropbox ficou offline. Os usuários não conseguiram sincronizar suas pastas e, portanto, não conseguiram acessar seus arquivos em muitos dispositivos. O serviço ficou inoperante durante grande parte da noite de sexta-feira e os usuários tiveram problemas para acessar seus arquivos durante o fim de semana.

Obviamente, a mídia estava cheia de especulações sobre possíveis causas da interrupção, com muitas se concentrando em um possível ataque DDoS. Na segunda-feira seguinte, o Dropbox divulgou uma declaração que entrou em detalhes sobre as causas da interrupção, que descartou a idéia de um ataque de hackers e culpou um processo de atualização com defeito.

No dia da interrupção, o Dropbox estava executando um backup agendado do sistema operacional. Como você pode imaginar, atualizar os milhares de servidores que o Dropbox usa não é uma tarefa fácil. Grande parte do processo é automatizado com scripts, que podem ter sido a causa do tempo de inatividade.

A principal lição aqui, conforme detalhado pelo chefe de infraestrutura do Dropbox, Akhil Gupta, é que, se você deseja fazer uma atualização, precisa ter certeza absoluta do estado do servidor. Para impedir que o mesmo erro ocorra novamente, O Dropbox implementou um nível extra de verificações, para que o servidor verifique seu próprio estado antes de executar comandos, em vez de executar cegamente as instruções recebidas, independentemente do que está fazendo quando as recebe.

Isso não é mencionado no post-mortem do incidente, mas a interrupção provavelmente poderia ter sido evitada com testes mais rigorosos. A interrupção do Dropbox é um lembrete do que pode acontecer quando uma empresa está escalando rapidamente sua infraestrutura. Escalar se torna o objetivo principal e os testes caem no caminho até certo ponto.

Uma abordagem mais rigorosa ao teste e verificação de scripts de automação pode ter detectado o "bug sutil" antes de causar estragos.

Sobre Graeme Caldwell - Graeme trabalha como comerciante de entrada para InterWorx, um painel de controle revolucionário de hospedagem na web para hosts que precisam de escalabilidade e confiabilidade. Siga a InterWorx no Twitter em @interworx, Como eles em Facebook e confira o blog deles, http://www.interworx.com/community.

 


Posts Recomendados

Tech LIFT

The 7 Top Data Center Trends for 2024

Data centers play a crucial role in allowing enterprises to process, access, and store mission-critical data for their daily operations. As the world sees

digite as informações abaixo para fazer o download do whitepaper

O Guia de Migração do Data Center

digite as informações abaixo para fazer o download do whitepaper

O Guia de Segurança do Data Center

digite as informações abaixo para fazer o download do whitepaper

Práticas recomendadas para mover o departamento de TI no data center

digite as informações abaixo para fazer o download do whitepaper

Práticas recomendadas para manipulação de equipamentos de data center

digite as informações abaixo para fazer o download do whitepaper

white paper do plano de ação de consolidação do data center

digite as informações abaixo para fazer o download do whitepaper

Compra de um dispositivo de elevação de data center