Rất ít người trong chúng ta trong ngành lưu trữ web sẽ có nhu cầu mở rộng đến mức mà các dịch vụ như Dropbox làm. Như đã nói, khi một dịch vụ có kích thước của Dropbox bị lạc hướng dẫn đến ngừng hoạt động, bạn nên chú ý đến nguyên nhân và tác động để xem liệu có bài học tiềm năng nào cần học không.
Vào ngày 10 tháng 1, Dropbox đã ngoại tuyến. Người dùng không thể đồng bộ hóa các thư mục của mình và do đó họ không thể truy cập các tệp của mình trên nhiều thiết bị. Dịch vụ đã ngừng hoạt động vào tối thứ Sáu và người dùng gặp khó khăn khi truy cập các tệp của họ trong suốt cuối tuần.
Of course, the media was full of speculation about potential causes for the outage, with many focusing on a possible DDoS attack. On the following Monday, Dropbox released a statement that went into detail about the causes of the outage, which dismissed the idea of an tấn công của tin tặc và thay vào đó đổ lỗi cho một quá trình cập nhật bị lỗi.
Vào ngày ngừng hoạt động, Dropbox đang chạy một bản sao lưu hệ điều hành theo lịch trình. Như bạn có thể tưởng tượng, việc cập nhật hàng ngàn máy chủ mà Dropbox sử dụng không phải là một nhiệm vụ dễ dàng. Phần lớn quá trình được tự động hóa với các tập lệnh, có thể là nguyên nhân của thời gian chết.
Bài học quan trọng ở đây, như chi tiết của Trưởng phòng Cơ sở hạ tầng tại Dropbox, Akhil Gupta, là nếu bạn định nâng cấp, bạn cần tuyệt đối chắc chắn trạng thái của máy chủ. Để tránh lỗi tương tự xảy ra lần nữa, Dropbox đã triển khai thêm một mức kiểm tra, để máy chủ sẽ xác minh trạng thái của chính nó trước khi thực hiện các lệnh, thay vì thực hiện một cách mù quáng các lệnh đến bất kể nó đang làm gì khi nhận được chúng.
Nó không được đề cập đến trong phần tử thi của vụ việc, nhưng việc ngừng hoạt động có lẽ có thể tránh được bằng các thử nghiệm nghiêm ngặt hơn. Sự cố ngừng hoạt động Dropbox là lời nhắc nhở về những gì có thể xảy ra khi một doanh nghiệp đang nhanh chóng mở rộng cơ sở hạ tầng của họ. Mở rộng quy mô trở thành mục tiêu chính và thử nghiệm rơi vào một mức độ nào đó.
Một cách tiếp cận khắt khe hơn để kiểm tra và xác minh các tập lệnh tự động hóa có thể đã bắt được lỗi tinh vi của Google trước khi nó tàn phá.
Giới thiệu về Graeme Caldwell - Graeme hoạt động như một nhà tiếp thị trong nước cho Liên bang, một bảng điều khiển lưu trữ web mang tính cách mạng cho các máy chủ cần khả năng mở rộng và độ tin cậy. Theo dõi InterWorx trên Twitter tại @interworx, Giống như họ trên Facebook và kiểm tra blog của họ, http://www.interworx.com/community.