Nhóm biên tập BigGo
Sự cố AWS nghiêm trọng làm gián đoạn Fortnite, Reddit và hàng trăm dịch vụ

Sự cố lan rộng tại Amazon Web Services ( AWS ) vào ngày 20 tháng 10 năm 2025 đã gây ra những gián đoạn đáng kể trên khắp hệ sinh thái kỹ thuật số, ảnh hưởng đến các nền tảng chơi game phổ biến, ứng dụng mạng xã hội và công cụ làm việc. Sự kiện này, bắt đầu vào các giờ sáng theo giờ UTC, đã làm nổi bật sự phụ thuộc rộng lớn của các dịch vụ internet hiện đại vào cơ sở hạ tầng điện toán đám mây tập trung. Mặc dù Amazon báo cáo các dấu hiệu phục hồi đáng kể sau vài giờ, sự kiện này đã trở thành một lời nhắc nhở rõ ràng về tính mong manh của hệ sinh thái kỹ thuật số kết nối của chúng ta.

Phạm vi của sự gián đoạn

Sự cố AWS đã tạo ra hiệu ứng lan tỏa, tác động đến hàng trăm ứng dụng và dịch vụ trên toàn cầu. Các nền tảng chơi game lớn bao gồm Fortnite và Roblox gặp phải lỗi không thể đăng nhập, trong khi các công cụ giao tiếp như Slack và Microsoft Teams trở nên không khả dụng với nhiều người dùng. Sự gián đoạn mở rộng đến các dịch vụ phát trực tuyến như HBO Max và Apple Music, các ứng dụng tài chính bao gồm Venmo và Coinbase, và thậm chí cả các dịch vụ giao đồ ăn như ứng dụng của McDonald's. Sự đa dạng của các dịch vụ bị ảnh hưởng đã cho thấy vai trò phổ biến của AWS trong việc vận hành nền kinh tế internet ngày nay, từ giải trí và mạng xã hội đến hoạt động kinh doanh và giao dịch tài chính.

Các Dịch Vụ Chính Bị Ảnh Hưởng Bởi Sự Cố AWS:

  • Game: Fortnite, Roblox, Epic Games Store, PlayStation Network, Xbox, Steam
  • Mạng Xã Hội & Giao Tiếp: Slack, Snapchat, Reddit, Signal, Microsoft Teams, Zoom
  • Giải Trí: HBO Max, Apple Music, Tidal, Prime Video, Roku
  • Năng Suất: Asana, Office 365, Duolingo, Canva
  • Tài Chính & Thương Mại: Venmo, Coinbase, Fanduel, Chime
  • Nhà Thông Minh: Ring, Blink, Alexa
  • Khác: Lyft, ứng dụng Starbucks, ứng dụng McDonald's, My Fitness Pal, Strava

Phản hồi kỹ thuật và nỗ lực khắc phục

Các nhóm kỹ sư của Amazon đã làm việc để xác định và giải quyết vấn đề cơ bản trong suốt thời gian xảy ra sự cố. Trang trạng thái của công ty chỉ ra rằng vấn đề bắt nguồn từ khu vực US-EAST-1, nơi đóng vai trò là trung tâm quan trọng cho nhiều dịch vụ toàn cầu. Vào giữa trưa UTC, Amazon xác nhận rằng hầu hết các yêu cầu đã thành công trở lại và quá trình phục hồi đang được tiến hành trên tất cả các dịch vụ AWS bị ảnh hưởng. Công ty thừa nhận đang xử lý một loạt các yêu cầu bị tồn đọng trong khi tiếp tục hướng tới giải pháp hoàn toàn. Việc khôi phục dần dần này có nghĩa là một số dịch vụ như Reddit đã trải qua tình trạng khả dụng không ổn định khi các hệ thống dần ổn định.

Tiến trình khôi phục (UTC, ngày 20 tháng 10 năm 2025):

  • Buổi sáng: Sự cố bắt đầu ảnh hưởng đến nhiều khu vực của AWS bao gồm Mỹ, EU và Anh
  • ~11:30 AM: Amazon báo cáo "các dấu hiệu khôi phục đáng kể" và hầu hết các yêu cầu đang thành công
  • Buổi chiều: Công ty xác nhận các dịch vụ toàn cầu dựa vào US-EAST-1 đã được khôi phục
  • Đang tiến hành: Khối lượng yêu cầu tồn đọng đang được xử lý, quá trình giải quyết hoàn toàn đang trong tiến trình

Bài toán về sự tập trung hóa

Sự cố này nhấn mạnh những rủi ro vốn có của việc phụ thuộc nặng nề vào các nhà cung cấp dịch vụ đám mây tập trung cho cơ sở hạ tầng quan trọng. Khi một nhà cung cấp duy nhất gặp phải khó khăn về kỹ thuật, hậu quả sẽ lan truyền qua vô số dịch vụ phụ thuộc. Sự cố này thậm chí còn ảnh hưởng đến cả các công ty có nền tảng đám mây cạnh tranh, chẳng hạn như Microsoft Office 365 và Teams, cho thấy sự phụ thuộc lẫn nhau phức tạp trong kiến trúc web hiện đại. Sự kiện này diễn ra sau các sự cố hạ tầng tương tự trong thời gian gần đây, nhấn mạnh sự cần thiết phải có kế hoạch dự phòng mạnh mẽ trên toàn ngành công nghệ.

Tác động đến người dùng và khả năng phục hồi kỹ thuật số

Đối với hàng triệu người dùng, sự cố này đồng nghĩa với những ngày làm việc bị gián đoạn, giải trí bị ngắt quãng và các giao dịch thất bại. Sự việc đã chứng minh sự phụ thuộc kỹ thuật số có thể trở nên rõ ràng nhanh chóng như thế nào khi chúng đột nhiên trở nên không khả dụng. Khi các dịch vụ dần dần khôi phục chức năng, sự kiện này đã thúc đẩy các cuộc thảo luận về việc xây dựng các hệ thống linh hoạt hơn có thể chịu được những sự cố hạ tầng như vậy. Quá trình phục hồi, mặc dù tương đối nhanh chóng, đã cho thấy những thách thức trong việc khôi phục đồng thời các hệ thống kết nối phức tạp trên các mạng lưới toàn cầu.

Hướng tới tương lai

Khi các dịch vụ kỹ thuật số tiếp tục phát triển, sự cân bằng giữa hiệu quả thông qua tập trung hóa và khả năng phục hồi thông qua phân phối vẫn là một cân nhắc quan trọng đối với các kiến trúc sư công nghệ. Mặc dù điện toán đám mây mang lại những lợi ích không thể phủ nhận về khả năng mở rộng và hiệu quả chi phí, các sự kiện như sự cố AWS này đã làm nổi bật tầm quan trọng của các cơ chế dự phòng và chuyển đổi dự phòng. Ngành công nghệ có thể sẽ xem xét lại các mô hình phụ thuộc và chiến lược khôi phục sau thảm họa sau sự gián đoạn rộng rãi này để đảm bảo trải nghiệm kỹ thuật số mạnh mẽ hơn cho người dùng trên toàn thế giới.