Những Trung tâm dữ liệu (TTDL) lớn tại Việt Nam ít nhiều từng gặp sự cố mất điện hàng loạt, gây ảnh hưởng lớn và thiệt hại rất nhiều về kinh tế. Nguyên nhân có thể do hệ thống máy phát điện, Bộ lưu điện dự phòng (UPS) không hoạt động, kỹ thuật viên vận hành làm sai thao tác….
Hệ thống điện dự phòng không hoạt động hoặc cấu hình sai
Theo Networkcomputing, nguyên nhân chính làm cho TTDL bị hỏng đó chính là mất điện. Sự cố mất điện có thể xảy ra ở bất kỳ TTDL nào trên thế giới dù lớn hay nhỏ. Việc ứng cứu kịp thời các sự cố phát sinh kiểu này sẽ đánh giá mức độ chuyên nghiệp của từng đơn vị. Một Data Center không chỉ có một mà có thêm nhiều nguồn điện dự phòng cấp tới, chưa kể đó là nguồn điện ưu tiên từ nhà nước.
Tuy nhiên những sự cố mất điện kèm theo máy phát điện không được bảo dưỡng thường xuyên, UPS không lưu điện…đều đất đến sụp TTDL. Bên cạnh đó, các quản trị viên đều không thường xuyên tập huấn các thao tác ứng cứu nên khi xảy ra thường bị động và mất kiểm soát. Một số nơi các quản trị viên còn rất lơ là trong việc kiểm tra việc bảo dưỡng hệ thống.
Lỗi do hệ thống làm mát
Hệ thống làm mát luôn giữ cho nhiệt độ TTDL ổn định ở mức mà các máy móc thiết bị hoạt động tốt nhất, thông thường là 25 độ C. Ở điều kiện bình thường khi bước chân vào các TTDL bạn cảm giác như đang ngâm mình trong nước đá. Tuy nhiên khi hệ thống làm mát có vấn đề thì độ nóng của các thiết bị hoạt động phả lên người như một lò thiêu. Đa phần các TTDL đều trang bị nhiều hệ thống làm mát dự phòng, đặt các cảm biến ở mọi ngóc ngách và người quản trị viên có thể nhận ra sự cố bất cứ lúc nào. Tuy nhiên sự cố đến bất ngờ mà những người kỹ càng nhất tính đến đều phải chào thua
Quy trình chuyển đổi hệ thống tự động không hoạt động
Hầu hết các nhà cung cấp dịch vụ dữ liệu đều có một hoặc nhiều trung tâm dữ liệu dự phòng. Trong trường hợp mất điện tại trung tâm chính, hệ thống sẽ tự động chuyển tất cả lưu lượng truy cập đến cơ sở dự phòng. Nếu được thực hiện đúng cách, người dùng cuối sẽ gần như không cảm nhận được sự chậm trễ và quá trình chuyển đổi này. Các dịch vụ trên lý thuyết vẫn sử dụng bình thường khi một trong các trung tâm dữ liệu gặp sự cố. Tuy nhiên, việc chuyển đổi tự động lưu lượng không phải lúc nào cũng hoạt động chính xác. Lỗi thông thường đến do nguyên nhân chủ quan của con người là thiếu kiểm tra thường xuyên. Ngay cả những thay đổi nhỏ trong hệ thống máy chủ lưu trữ dữ liệu chính cũng có thể tác động lớn đến quá trình chuyển đổi dự phòng tự động.
Thực hiện quá nhiều thay đổi trong thời gian bảo trì
Trong thời gian bảo trì hệ thống, các quản trị viên thường cố gắng thực hiện nhiều thay đổi cùng lúc để tận dụng. Tuy nhiên, việc vội vã vì phải hoàn thành lượng công việc lớn trong một khoảng thời gian ngắn có thể dẫn đến các sai lầm. Ngoài ra, việc thay đổi nhiều cài đặt trong một khung thời gian, các lỗi dây chuyền sẽ càng khiến quản trị viên khó tìm ra nguyên nhân gốc của vấn đề và việc xử lý sau sự cố mất nhiều giờ thậm chí là nhiều ngày để khắc phục hoàn toàn.
Ủy quyền hệ thống không đúng cách
Theo Networkcomputing, số lượng quản trị viên có quyền truy cập đầy đủ đến tất cả hệ thống trong trung tâm dữ liệu phải rất hạn chế. Mỗi lần truy cập hay sửa đổi của các quản trị viên cũng cần được theo dõi và kiểm soát chặt chẽ. Nhiều hậu quả đến với các trung tâm dữ liệu lớn đến chỉ sau vài cú nhấp chuột hay vài dòng nhập code sai của quản trị viên. Năm 2014, một quản trị viên của công ty dữ liệu Joyent sử dụng phần mềm để cập nhật từ xa cho một số máy chủ mới ở trung tâm dữ liệu phía đông Mỹ của công ty. Tuy nhiên, khi cố khởi động lại các máy mới, anh này vô tình khởi động lại toàn bộ các máy có trong trung tâm. Sự cố gây quá tải cho hệ thống và công ty mất nhiều giờ để khắc phục cũng như bồi thường cho khách hàng.
Phần cứng cũ
Mọi thiết bị phần cứng máy tính luôn có tuổi thọ nhất định. Với hệ thống sử dụng nhiều linh kiện như trung tâm dữ liệu, khả năng nhiều máy đồng loạt “chết” tại một thời điểm sau sự cố như mất điện là rất dễ xảy ra. Những người quản lý đều hiểu điều này nhưng việc thay mới thường xuyên đòi hỏi kinh phí lớn và đôi khi bị cho là chưa tận dụng hết giá trị của sản phẩm.
Hệ thống cáp quang cho trung tâm dữ liệu
Một lý do khác khiến trung tâm dữ liệu gặp sự cố là hệ thống cáp quang gặp vấn đề. Thông thường, một Data Center sẽ sử dụng nhiều đường cáp quang khác nhau để cung cấp đường truyền Internet. Trong trường hợp đường cáp chính sử dụng ổn định, các quản trị viên cũng gặp tình huống chủ quan không thường xuyên kiểm tra các đường cáp dự phòng. Điều này dẫn đến khi xảy ra sự cố đứt cáp chính, các cáp phụ không hoạt động hoặc không đủ tải cho hệ thống.
Dẫn nguồn: Tham khảo Vnexpress