Phản ứng của RedPanda trước sự cố GCP gây tranh luận về may mắn so với thiết kế trong kiến trúc đám mây

Nhóm Cộng đồng BigGo
Phản ứng của RedPanda trước sự cố GCP gây tranh luận về may mắn so với thiết kế trong kiến trúc đám mây

Khi Google Cloud Platform gặp sự cố toàn cầu lớn vào ngày 11 tháng 6 năm 2023, RedPanda Cloud đã công bố một bài phân tích chi tiết giải thích cách dịch vụ của họ không bị ảnh hưởng. Tuy nhiên, phản ứng của cộng đồng công nghệ không mấy ấn tượng, với nhiều người đặt câu hỏi liệu việc RedPanda sống sót là do kiến trúc vượt trội hay chỉ đơn giản là may mắn.

Cộng đồng đặt câu hỏi về tuyên bố xuất sắc kiến trúc của RedPanda

Cuộc thảo luận tập trung xung quanh khẳng định của RedPanda rằng kiến trúc dựa trên cell và các nguyên tắc thiết kế của họ đã bảo vệ họ trong suốt sự cố GCP . Những người chỉ trích cho rằng RedPanda đơn giản là không sử dụng các dịch vụ GCP cụ thể bị lỗi, khiến việc họ sống sót phụ thuộc vào may mắn hơn là thiết kế. Một người bình luận đã nắm bắt hoàn hảo quan điểm này:

Không có gì về cách họ thiết kế kiến trúc hệ thống thậm chí còn quan trọng trong sự cố này. Dịch vụ của họ chỉ đơn giản là không sử dụng bất kỳ cơ sở hạ tầng nào bị lỗi - không có sự kiện nào ở đây thực sự đặt thiết kế hệ thống của họ vào thử thách.

Cộng đồng chỉ ra rằng hệ thống giám sát và cảnh báo của RedPanda thực sự bị ảnh hưởng bởi sự cố, buộc nhóm của họ phải giám sát dashboard thủ công. Điều này đặt ra câu hỏi về tính đầy đủ của các tuyên bố khả năng chịu lỗi của họ.

Những Ưu Thế Kiến Trúc Được RedPanda Tuyên Bố:

  • Kiến trúc dựa trên cell với các dịch vụ được đặt cùng vị trí
  • Hệ số sao chép tối thiểu là 3 trên các vùng khả dụng
  • Dữ liệu chính được lưu trữ trên ổ đĩa NVMe cục bộ
  • Lưu trữ phân tầng được sử dụng bất đồng bộ cho dữ liệu cũ hơn
  • Không có phụ thuộc bên ngoài trong đường dẫn dữ liệu quan trọng
  • SLA khả dụng 99.99% với mục tiêu nội bộ 99.999%

Thực tế đằng sau các tuyên bố marketing

Các cuộc thảo luận kỹ thuật tiết lộ một số khoảng trống trong câu chuyện của RedPanda . Hệ thống lưu trữ phân tầng của họ gặp phải tỷ lệ lỗi tăng cao, và họ phải cung cấp thêm dung lượng đĩa như một biện pháp phòng ngừa. Quan trọng hơn, hệ thống cảnh báo bên thứ ba của họ đã ngừng hoạt động, khiến họ không có khả năng giám sát tự động trong suốt sự cố. Những người chỉ trích lưu ý rằng các hệ thống thực sự có khả năng phục hồi nên duy trì khả năng cảnh báo ngay cả trong các sự cố lớn của nhà cung cấp đám mây.

Cộng đồng cũng nhấn mạnh rằng RedPanda đã mất một node cluster trong sự cố, mặc dù điều này chỉ ảnh hưởng đến môi trường staging thay vì production. Chi tiết này phần nào làm suy yếu tuyên bố miễn nhiễm hoàn toàn với sự cố của họ.

RedPanda : Thương hiệu vui tươi tượng trưng cho sự kiên cường và độ tin cậy trong kiến trúc đám mây
RedPanda : Thương hiệu vui tươi tượng trưng cho sự kiên cường và độ tin cậy trong kiến trúc đám mây

Ý nghĩa rộng lớn hơn cho thiết kế kiến trúc đám mây

Cuộc thảo luận đã phát triển thành một cuộc trò chuyện sâu sắc hơn về triết lý kiến trúc của nhà cung cấp đám mây. Các thành viên cộng đồng đã so sánh cách tiếp cận dịch vụ toàn cầu của Google Cloud với mô hình độc lập khu vực của Amazon Web Services . Các khu vực AWS hoạt động như các miền lỗi thực sự biệt lập với các địa chỉ IP chồng chéo ngăn chặn các phụ thuộc vô tình giữa các khu vực.

Cách tiếp cận của GCP mang lại những lợi thế như quản lý đa khu vực đơn giản hóa và cân bằng tải toàn cầu, nhưng đi kèm với sự đánh đổi về việc tăng bán kính nổ trong các sự cố. Sự cố gần đây cho thấy cách một lỗi dịch vụ đơn lẻ có thể lan tỏa qua nhiều khu vực trong kiến trúc của GCP .

So sánh Kiến trúc Khu vực GCP và AWS:

  • Cách tiếp cận của GCP: Các dịch vụ toàn cầu với khả năng sao chép gần như tức thời, quản lý đa khu vực được đơn giản hóa, nhưng có phạm vi ảnh hưởng sự cố lớn hơn
  • Cách tiếp cận của AWS: Các khu vực thực sự độc lập với địa chỉ IP trùng lặp, triển khai dần dần, tính ổn định tĩnh cho các dịch vụ toàn cầu như Route53
  • Sự đánh đổi: GCP cung cấp các hoạt động toàn cầu dễ dàng hơn nhưng có tương quan lỗi cao hơn; AWS cung cấp khả năng cô lập tốt hơn nhưng thiết lập đa khu vực phức tạp hơn

Bài học cho ngành công nghiệp

Trong khi cách tiếp cận marketing của RedPanda đã thu hút sự chỉ trích, sự cố này làm nổi bật những cân nhắc quan trọng cho thiết kế dịch vụ đám mây. Cuộc thảo luận cộng đồng nhấn mạnh rằng việc thừa nhận may mắn và các yếu tố bên ngoài có giá trị hơn việc nhận công cho các quyết định kiến trúc không thực sự được kiểm tra.

Cuộc tranh luận cũng nhấn mạnh tầm quan trọng của việc thiết kế hệ thống với các phụ thuộc bên ngoài tối thiểu và duy trì cơ sở hạ tầng giám sát thực sự độc lập. Như một nhà quan sát lưu ý, việc cung cấp tài nguyên dư thừa và tránh các phụ thuộc vào các dịch vụ bị ảnh hưởng là các thực hành độ tin cậy cơ bản thay vì những thành tựu kiến trúc sáng tạo.

Tham khảo: Behind the scenes: Redpanda Cloud's response to the GCP outage

Những thành tựu kiến trúc sáng tạo trong thiết kế cloud được khám phá thông qua các bài học về độ tin cậy gần đây
Những thành tựu kiến trúc sáng tạo trong thiết kế cloud được khám phá thông qua các bài học về độ tin cậy gần đây