Pesquisar
Close this search box.

COMPARTILHAR

COMPARTILHAR

COMPARTILHAR

ASSISTIR

Lições a serem aprendidas com a recente interrupção do Dropbox

Muito poucos de nós no setor de hospedagem na web precisarão escalar para o nível que serviços como o Dropbox fazem. Dito isso, quando um serviço do tamanho do Dropbox dá um passo em falso que leva a uma interrupção, vale a pena prestar atenção às causas e ao impacto para ver se há lições em potencial a serem aprendidas.

Em 10 de janeiro, o Dropbox ficou offline. Os usuários não conseguiram sincronizar suas pastas e, portanto, não conseguiram acessar seus arquivos em muitos dispositivos. O serviço ficou inoperante durante grande parte da noite de sexta-feira e os usuários tiveram problemas para acessar seus arquivos durante o fim de semana.

Obviamente, a mídia estava cheia de especulações sobre possíveis causas da interrupção, com muitas se concentrando em um possível ataque DDoS. Na segunda-feira seguinte, o Dropbox divulgou uma declaração que entrou em detalhes sobre as causas da interrupção, que descartou a idéia de um ataque de hackers e culpou um processo de atualização com defeito.

No dia da interrupção, o Dropbox estava executando um backup agendado do sistema operacional. Como você pode imaginar, atualizar os milhares de servidores que o Dropbox usa não é uma tarefa fácil. Grande parte do processo é automatizado com scripts, que podem ter sido a causa do tempo de inatividade.

A principal lição aqui, conforme detalhado pelo chefe de infraestrutura do Dropbox, Akhil Gupta, é que, se você deseja fazer uma atualização, precisa ter certeza absoluta do estado do servidor. Para impedir que o mesmo erro ocorra novamente, O Dropbox implementou um nível extra de verificações, para que o servidor verifique seu próprio estado antes de executar comandos, em vez de executar cegamente as instruções recebidas, independentemente do que está fazendo quando as recebe.

Isso não é mencionado no post-mortem do incidente, mas a interrupção provavelmente poderia ter sido evitada com testes mais rigorosos. A interrupção do Dropbox é um lembrete do que pode acontecer quando uma empresa está escalando rapidamente sua infraestrutura. Escalar se torna o objetivo principal e os testes caem no caminho até certo ponto.

Uma abordagem mais rigorosa ao teste e verificação de scripts de automação pode ter detectado o "bug sutil" antes de causar estragos.

Sobre Graeme Caldwell - Graeme trabalha como comerciante de entrada para InterWorx, um painel de controle revolucionário de hospedagem na web para hosts que precisam de escalabilidade e confiabilidade. Siga a InterWorx no Twitter em @interworx, Como eles em Facebook e confira o blog deles, http://www.interworx.com/community.

 


Posts Recomendados

Tech LIFT

Data Center Safety In 2024: 8 Key Components

Data centers can be dangerous, even for experienced workers. There are plenty of opportunities for something to go wrong, with electrical work, fire and

digite as informações abaixo para fazer o download do whitepaper

O Guia de Migração do Data Center

digite as informações abaixo para fazer o download do whitepaper

O Guia de Segurança do Data Center

digite as informações abaixo para fazer o download do whitepaper

Práticas recomendadas para mover o departamento de TI no data center

digite as informações abaixo para fazer o download do whitepaper

Práticas recomendadas para manipulação de equipamentos de data center

digite as informações abaixo para fazer o download do whitepaper

white paper do plano de ação de consolidação do data center

digite as informações abaixo para fazer o download do whitepaper

Compra de um dispositivo de elevação de data center