Một sự cố nghiêm trọng tại trung tâm dữ liệu US-East Newark của Linode đã khiến hàng nghìn khách hàng không thể truy cập các dịch vụ đám mây của họ trong hơn 24 giờ, đánh dấu một trong những sự gián đoạn đáng kể nhất trong lịch sử gần đây của công ty. Sự cố bắt đầu vào ngày 27 tháng 7 năm 2025, lúc 10:08 UTC, được kích hoạt bởi mất điện gây ra các lỗi liên tục trong hệ thống sưởi ấm và làm mát của cơ sở.
Dòng thời gian sự cố:
- 27 tháng 7, 2025 10:08 UTC: Sự cố ban đầu được báo cáo
- 27 tháng 7, 2025 13:59 UTC: Xác định được nguyên nhân gốc rễ (mất điện ảnh hưởng đến hệ thống HVAC)
- 27 tháng 7, 2025 14:13 UTC: Block Storage được khôi phục
- 27 tháng 7, 2025 17:52 UTC: Object Storage được khôi phục
- 27 tháng 7, 2025 19:00 UTC: NodeBalancers được khôi phục
- 28 tháng 7, 2025 10:50 UTC: Cập nhật mới nhất (đã kéo dài hơn 24 giờ)
Thời gian ngừng hoạt động kéo dài khiến người dùng doanh nghiệp bức xúc
Tính chất kéo dài của sự cố này đã đặc biệt ảnh hưởng đến các doanh nghiệp phụ thuộc vào Linode cho cơ sở hạ tầng quan trọng. Nhiều người dùng báo cáo mất hoàn toàn quyền truy cập vào các máy chủ riêng ảo của họ, với một số trải qua khôi phục một phần sau đó lại gặp thêm lỗi. Máy chủ email, dịch vụ DNS và các trang web hướng tới khách hàng đã bị offline, gây ra sự gián đoạn kinh doanh đáng kể.
Phản ứng của cộng đồng cho thấy tác động thực tế của thời gian ngừng hoạt động kéo dài như vậy. Một người dùng ghi nhận trải nghiệm của họ với cơ sở hạ tầng trải rộng trên nhiều nhà cung cấp, nhấn mạnh cách thức ngay cả các thiết lập dự phòng cũng không thể bảo vệ hoàn toàn các doanh nghiệp khỏi sự cố khu vực có quy mô như vậy.
Khoảng trống giao tiếp làm tăng thêm lo ngại của khách hàng
Ngoài các vấn đề kỹ thuật, khách hàng đã bày tỏ sự bức xúc với việc giao tiếp của Linode trong suốt cuộc khủng hoảng. Phải mất khoảng bốn giờ để công ty xác định và thông báo rằng nguyên nhân gốc rễ liên quan đến các biến chứng về điện và HVAC. Kể từ đó, các cập nhật trạng thái phần lớn lặp lại, cung cấp ít thông tin cụ thể về tiến trình khôi phục hoặc thời gian biểu.
Chúng tôi đang tiến gần 24 giờ ngừng hoạt động, tôi vẫn là một trong những người bị ảnh hưởng và tôi bắt đầu tự hỏi liệu tình hình có tệ hơn những gì họ đang tiết lộ không.
Mô hình giao tiếp này đã khiến một số người dùng đặt câu hỏi liệu phạm vi đầy đủ của vấn đề có được tiết lộ hay không, đặc biệt xét đến độ dài bất thường của sự cố đối với một nhà cung cấp đám mây lớn.
Tác động dịch vụ rộng rãi vượt ra ngoài Newark
Điều bắt đầu như một vấn đề cục bộ của trung tâm dữ liệu Newark đã mở rộng để ảnh hưởng đến các dịch vụ Linode Kubernetes Engine (LKE) trên nhiều khu vực, bao gồm Dallas, Fremont, Sydney, Tokyo 2, Toronto và Washington. Tác động xuyên khu vực này cho thấy cơ sở hạ tầng đám mây hiện đại đã trở nên kết nối chặt chẽ như thế nào, nơi các vấn đề trong một cơ sở có thể lan rộng qua các lục địa.
Sự cố ảnh hưởng đến hầu như tất cả các dịch vụ Linode trong khu vực Newark, bao gồm Block Storage, Object Storage, NodeBalancers, Backups và Metadata Service. Khôi phục diễn ra từ từ và không đồng đều, với một số dịch vụ như Block Storage và Object Storage được khôi phục trước các dịch vụ khác nhiều giờ.
Các Dịch Vụ Bị Ảnh Hưởng:
- Tất cả các instance Linode tại khu vực Newark
- Block Storage (đã khôi phục)
- Object Storage (đã khôi phục)
- NodeBalancers (đã khôi phục)
- Backups
- Metadata Service
- Longview
- Tác động LKE xuyên khu vực: Dallas , Fremont , Sydney , Tokyo 2 , Toronto , Washington
Tiến trình khôi phục vẫn chậm
Tính đến các cập nhật mới nhất, các chuyên gia chủ đề của Linode tiếp tục làm việc để khôi phục các dịch vụ còn lại, nhưng tiến trình có vẻ từng bước. Một số người dùng báo cáo thấy dấu hiệu sống từ các máy chủ riêng lẻ, trong khi những người khác vẫn hoàn toàn offline. Công ty đã khôi phục một số dịch vụ theo từng giai đoạn, với NodeBalancers khôi phục vào khoảng 19:00 UTC ngày 27 tháng 7, tiếp theo là Block Storage lúc 14:13 UTC và Object Storage lúc 17:52 UTC.
Sự cố này phục vụ như một lời nhắc nhở nghiêm khắc về các rủi ro liên quan đến triển khai đơn khu vực và tầm quan trọng của các chiến lược đa đám mây cho các ứng dụng quan trọng. Đối với nhiều khách hàng bị ảnh hưởng, sự cố này đại diện cho trải nghiệm dài nhất của họ với thời gian ngừng hoạt động từ bất kỳ nhà cung cấp hosting nào, đặt ra câu hỏi về các thỏa thuận mức dịch vụ và chính sách bồi thường.
HVAC: Hệ thống sưởi ấm, thông gió và điều hòa không khí duy trì nhiệt độ và độ ẩm tối ưu trong các trung tâm dữ liệu LKE: Linode Kubernetes Engine, một dịch vụ điều phối container được quản lý
Tham khảo: Service Issue - All Services - US-EAST (Newark) Incident Report for Linode