Web托管行业中很少有人会需要扩展到Dropbox这样的服务所能达到的水平。话虽如此,当Dropbox大小的服务失误导致停机时,值得关注其原因和影响,以查看是否有任何潜在的经验教训可以学习。
1月10日,Dropbox脱机。用户无法同步其文件夹,因此无法在许多设备上访问其文件。该服务在星期五晚上的大部分时间里关闭,用户在整个周末都无法访问其文件。
Of course, the media was full of speculation about potential causes for the outage, with many focusing on a possible DDoS attack. On the following Monday, Dropbox released a statement that went into detail about the causes of the outage, which dismissed the idea of an 黑客攻击 而是指责更新过程有问题。
停运当天,Dropbox正在运行计划的OS备份。可以想象,更新Dropbox使用的数千台服务器绝非易事。大部分过程是使用脚本自动执行的,这可能是造成停机的原因。
如Dropbox基础架构负责人Akhil Gupta所详述,此处的关键课程是,如果要进行升级,则必须绝对确定服务器所处的状态。为防止再次发生相同的错误, Dropbox实施了额外级别的检查,因此服务器将在执行命令之前验证其自身状态,而不是盲目执行传入的指令,无论接收指令时它在做什么。
事件的事后未提及,但是通过更严格的测试可以避免停机。 Dropbox中断提醒了企业快速扩展其基础架构时可能发生的情况。扩展成为主要目标,并且测试在某种程度上掉队了。
一种更严格的测试和验证自动化脚本的方法可能在造成严重破坏之前就已经发现了“细微的错误”。
关于Graeme Caldwell-Graeme是 InterWorx,革命性的网络托管控制面板,适用于需要可扩展性和可靠性的主机。在Twitter上关注InterWorx,网址为 @interworx,喜欢他们 脸书 并查看他们的博客, http://www.interworx.com/community.