Sự cố ngừng hoạt động trên diện rộng tại Amazon Web Services, nền tảng điện toán đám mây lớn nhất thế giới, đã gây ra gián đoạn đáng kể cho các ứng dụng phổ biến, trang web và các dịch vụ thiết yếu trên toàn cầu vào ngày 20 tháng 10 năm 2025. Sự việc kéo dài trong vài giờ này đã làm nổi bật sự phụ thuộc nặng nề của internet vào cơ sở hạ tầng đám mây và làm dấy lên những câu hỏi về các điểm hỏng đơn lẻ trong hệ sinh thái kỹ thuật số hiện đại.
Phạm vi của sự gián đoạn
Sự cố AWS bắt đầu vào sáng sớm ngày 20 tháng 10 năm 2025, với những báo cáo đầu tiên xuất hiện vào khoảng 3 giờ sáng theo giờ EST. Sự gián đoạn nhanh chóng lan rộng khắp nhiều châu lục, ảnh hưởng đến mọi thứ từ ứng dụng giải trí đến các dịch vụ chính phủ quan trọng. Theo dịch vụ theo dõi sự cố Downdetector, các báo cáo đã đạt đỉnh với hơn 13.000 khiếu nại của người dùng chỉ riêng tại Hoa Kỳ, trong khi các báo cáo toàn cầu cho thấy hàng triệu người dùng bị ảnh hưởng trên hơn 1.000 công ty và dịch vụ. Sự cố này là một trong những gián đoạn internet lớn nhất kể từ sự cố CrowdStrike năm ngoái đã làm tê liệt các ngân hàng và sân bay trên toàn thế giới.
Nguyên nhân gốc rễ kỹ thuật được xác định
Amazon đã xác định vấn đề nằm ở khu vực US-EAST-1 của họ tại Virginia, nơi phục vụ như trung tâm dữ liệu gốc và lớn nhất của công ty. Công ty xác định vấn đề bắt nguồn từ một lỗ hổng trong hệ thống nội bộ giám sát tình trạng hoạt động của các bộ cân bằng tải mạng trong cơ sở hạ tầng mạng EC2 của họ. Lỗi kỹ thuật này đã gây ra điều mà AWS mô tả là tỷ lệ lỗi và độ trễ gia tăng, cùng với lỗi API trên nhiều dịch vụ AWS khác nhau. Vấn đề đặc biệt nghiêm trọng vì US-EAST-1 đóng vai trò là khu vực mặc định cho nhiều khách hàng của AWS và chứa công suất theo yêu cầu đáng kể, khiến sự cố của nó có tác động đặc biệt lớn.
Chi tiết Tác động Kỹ thuật:
- Khu vực chính bị ảnh hưởng: US-EAST-1 (Northern Virginia)
- Nguyên nhân gốc rễ: Lỗi trong hệ thống giám sát nội bộ về tình trạng hoạt động của network load balancer trong mạng EC2
- Tác động thứ cấp: Lỗi API, độ trễ tăng cao, lỗi phân giải DNS
- Các hành động khôi phục: Khuyến nghị xóa bộ nhớ đệm DNS, triển khai điều tiết yêu cầu, xử lý tồn đọng cho Cloudtrail và Lambda
Tác động dịch vụ trên diện rộng
Sự cố đã tạo ra hiệu ứng domino trên khắp bức tranh kỹ thuật số. Các dịch vụ tiêu dùng phổ biến bao gồm Snapchat, Fortnite, Roblox, Coinbase và Signal trở nên không thể truy cập được đối với người dùng. Các dịch vụ của chính Amazon như loa thông minh Alexa, hệ thống an ninh Ring và Prime Video cũng bị ảnh hưởng. Nghiêm trọng hơn, sự gián đoạn đã mở rộng đến các dịch vụ thiết yếu bao gồm các báo cáo về tác động đến dịch vụ NHS tại Vương quốc Anh, các tổ chức ngân hàng Anh như Lloyds và cơ quan thu thuế của Anh HMRC. National Rail tại Anh đã hướng dẫn hành khách đến các nguồn thông tin thay thế khi trang web và ứng dụng của họ trở nên không khả dụng trong sự cố.
Các Dịch Vụ Bị Ảnh Hưởng Trong Sự Cố AWS:
- Mạng Xã Hội/Giải Trí: Snapchat, Fortnite, Roblox, Coinbase, Signal, Reddit, Apple TV, Duolingo
- Dịch Vụ Amazon: Alexa, Ring, Prime Video, Amazon Click and Collect
- Tài Chính: Venmo, Lloyds Bank
- Dịch Vụ Chính Phủ: NHS (Anh), HMRC (cơ quan thuế Anh), National Rail (Anh)
- Khác: Instacart, Perplexity, Canva
Nỗ lực khắc phục và Thách thức đang diễn ra
AWS đã bắt đầu các nỗ lực giảm thiểu vài giờ sau khi sự cố xảy ra, với tuyên bố từ công ty rằng các vấn đề về DNS đã được khắc phục hoàn toàn và hầu hết các hoạt động dịch vụ đã trở lại bình thường. Tuy nhiên, quá trình phục hồi phải đối mặt với những thách thức đáng kể. AWS đã triển khai cơ chế giới hạn yêu cầu đối với các máy chủ ảo mới nhằm tăng tốc quá trình phục hồi và thừa nhận rằng một số dịch vụ đang xử lý các sự kiện tồn đọng trong các hệ thống như Cloudtrail và Lambda. Công ty đặc biệt lưu ý rằng các yêu cầu khởi chạy phiên bản EC2 mới trong khu vực US-EAST-1 vẫn đang ghi nhận tỷ lệ lỗi cao ngay cả khi các dịch vụ khác đã ổn định.
Cập nhật tình trạng dịch vụ AWS theo thời gian:
- Xác định sự cố ban đầu: ~3 giờ sáng EST (ngày 20 tháng 10 năm 2025)
- Xác định nguyên nhân gốc rễ: Sự cố phân giải DNS với các API DynamoDB tại US-EAST-1
- Công bố biện pháp khắc phục: Vài giờ sau khi sự cố bắt đầu
- Vấn đề đang tiếp diễn: Việc khởi chạy các instance EC2 vẫn tiếp tục gặp lỗi sau khi giải quyết chính
- Trạng thái phục hồi: Hầu hết các dịch vụ đã hoạt động trở lại với một số công việc tồn đọng vẫn đang được xử lý
Hàm ý rộng hơn cho Điện toán đám mây
Sự cố này đã làm bùng lên cuộc thảo luận mới về sự tập trung của cơ sở hạ tầng internet vào một vài nhà cung cấp đám mây lớn. Các chuyên gia an ninh mạng lưu ý rằng AWS chiếm khoảng 30% thị phần cơ sở hạ tầng đám mây toàn cầu, đồng nghĩa với việc bất kỳ sự gián đoạn nào cũng có thể gây hậu quả rộng khắp. Các chuyên gia trong ngành ngay lập tức bắt đầu vận động cho các chiến lược đa đám mây mạnh mẽ hơn và kế hoạch khôi phục thảm họa tốt hơn. Sự cố này đã trở thành một lời nhắc nhở rõ ràng về sự mong manh của internet khi các dịch vụ quan trọng phụ thuộc quá nhiều vào các khu vực điện toán đám mây đơn lẻ từ các nhà cung cấp riêng biệt.
Lo ngại về Bảo mật trong quá trình Phục hồi
Các chuyên gia bảo mật cảnh báo rằng giai đoạn phục hồi mang theo những rủi ro bổ sung ngoài sự gián đoạn dịch vụ trước mắt. Charlotte Wilson, người đứng đầu mảng doanh nghiệp của Check Point Software, cảnh báo rằng những kẻ tấn công thường lợi dụng những tình huống như vậy khi các công ty vội vã khôi phục quyền truy cập và các hệ thống bị căng thẳng. Bà đặc biệt nhấn mạnh nguy cơ từ các đề nghị hoàn tiền hoặc giảm giá giả mạo, email lừa đảo và các liên kết lừa đảo tuyên bố khắc phục sự cố. Điều này đã tạo ra một bối cảnh mối đe dọa thứ cấp đòi hỏi sự cảnh giác từ cả nhà cung cấp dịch vụ và người dùng trong giai đoạn phục hồi.
Bài học về Tính liên tục của Doanh nghiệp
Sự cố AWS đã thúc đẩy các doanh nghiệp đánh giá lại sự phụ thuộc vào đám mây và các chiến lược khôi phục thảm họa của họ. Các cố vấn công nghệ khuyến nghị rằng các tổ chức nên tránh đặt toàn bộ cơ sở hạ tầng của họ vào một nhà cung cấp dịch vụ đám mây duy nhất và nhấn mạnh tầm quan trọng của việc thường xuyên kiểm tra các hệ thống chuyển đổi dự phòng. Sự cố này đã chứng minh rằng ngay cả với cơ sở hạ tầng đám mây mạnh mẽ, các điểm hỏng đơn lẻ vẫn có thể gây ra gián đoạn kinh doanh đáng kể. Khi các dịch vụ dần trở lại bình thường trong ngày, ngành công nghiệp công nghệ đã bắt đầu đánh giá những thay đổi cấu trúc nào có thể cần thiết để ngăn chặn các sự cố ngừng hoạt động trên diện rộng tương tự trong tương lai.