Cộng đồng tranh luận về các giải pháp thay thế SSD Caching sau khi Upsun giảm 95% chi phí băng thông với dm-cache

Nhóm Cộng đồng BigGo
Cộng đồng tranh luận về các giải pháp thay thế SSD Caching sau khi Upsun giảm 95% chi phí băng thông với dm-cache

Sau thành tựu ấn tượng của Upsun trong việc cắt giảm 95% chi phí băng thông AWS bằng cách sử dụng dm-cache cho bộ nhớ đệm SSD cục bộ, cộng đồng công nghệ đã bùng nổ một cuộc thảo luận sôi nổi về các giải pháp caching thay thế và những đánh đổi của chúng. Câu chuyện thành công của công ty đã thúc đẩy các nhà phát triển và kỹ sư hạ tầng chia sẻ kinh nghiệm của họ với các công nghệ caching khác nhau và đặt ra những câu hỏi quan trọng về tính nhất quán dữ liệu và tối ưu hóa hiệu suất.

Kết quả hiệu suất dm-cache của Upsun:

  • Giảm 95% lưu lượng đọc qua mạng
  • Cải thiện IOPS gấp 30 lần cho các thao tác được lưu trong cache
  • Giảm 50% độ trễ đọc
  • Tăng băng thông đọc gấp 30 lần cho dữ liệu được truy cập thường xuyên
  • Kích thước cache: 512MB phục vụ các ổ đĩa RBD từ 5-50GB

Các giải pháp Caching thay thế thu hút sự chú ý

Cuộc thảo luận của cộng đồng đã làm nổi bật một số giải pháp thay thế cho dm-cache mà các nhà phát triển đã sử dụng trong các tình huống tương tự. Cách tiếp cận của Discord sử dụng thứ mà một số người nhớ là SuperDisks đã xuất hiện trở lại trong các cuộc trò chuyện, nơi họ triển khai chiến lược mirroring với các thiết bị khối từ xa được mirror một cách lười biếng đến SSD cục bộ. Phương pháp này ưu tiên việc đọc từ các thiết bị cục bộ trong khi đảm bảo việc ghi đi đến cả hai vị trí, mang lại một cách tiếp cận khác cho vấn đề caching.

Open-CAS đã nổi lên như một lựa chọn hấp dẫn khác, với các thành viên cộng đồng cho rằng nó có thể mang lại hiệu suất tốt hơn dm-cache. Được duy trì bởi Intel và Huawei, giải pháp caching này đã thu hút sự chú ý nhờ lợi ích hiệu suất tiềm năng, mặc dù một số nhà phát triển bày tỏ lo ngại về sự thay đổi trong việc duy trì từ Intel sang Huawei sau khi Intel giảm các nhóm phát triển phần mềm lưu trữ.

Lưu ý: Open-CAS (Open Cache Acceleration Software) là một giải pháp caching lưu trữ khối mã nguồn mở được thiết kế để cải thiện hiệu suất bằng cách sử dụng các thiết bị lưu trữ nhanh làm cache cho lưu trữ chậm hơn.

So sánh Giải pháp Caching:

  • dm-cache: Giải pháp device mapper của Linux, có kết quả đã được chứng minh nhưng cộng đồng vẫn tranh luận về các lựa chọn thay thế
  • bcache: Trong lịch sử được coi là có thiết kế tốt hơn dm-cache
  • Open-CAS: Được duy trì bởi Intel/Huawei, có khả năng hiệu suất cao hơn
  • Cách tiếp cận của Discord: Mirroring thiết bị block từ xa với ưu tiên SSD cục bộ

Mối lo ngại về tính nhất quán dữ liệu khơi mào cuộc tranh luận kỹ thuật

Một phần đáng kể của cuộc thảo luận cộng đồng tập trung vào các thách thức về tính nhất quán dữ liệu khi triển khai các lớp caching trước hệ thống tệp phân tán. Các nhà phát triển đã nêu lên mối lo ngại về các vấn đề coherency, đặc biệt trong môi trường đa node nơi nhiều hệ thống có thể thực hiện ghi đồng thời.

Cuộc tranh luận giữa write-back và write-through đã chứng tỏ đặc biệt gây tranh cãi. Trong khi Upsun chọn chế độ write-through để đảm bảo tính toàn vẹn dữ liệu trong môi trường thương mại điện tử của họ, các thành viên cộng đồng đã chỉ ra rằng ngay cả cách tiếp cận này cũng có thể không đảm bảo tính nhất quán cho các ứng dụng thực hiện các thao tác đọc-rồi-ghi. Độ phức tạp tăng lên khi xem xét các vấn đề thứ tự tiềm ẩn và nhu cầu về việc đọc và ghi nhất quán trong các hệ thống giao dịch.

Chế độ writeback của dm-cache vừa tuyệt vời vừa đáng sợ. Nó sắp xếp lại các lần ghi, vì vậy không chỉ bạn mất dữ liệu nếu cache bị lỗi, bạn có thể đã làm hỏng toàn bộ đĩa sao lưu.

Lưu ý: Chế độ Write-back tạm thời lưu trữ các lần ghi trong cache trước khi commit vào lưu trữ chính, trong khi chế độ write-through ngay lập tức ghi vào cả cache và lưu trữ chính.

Các Cân nhắc Kỹ thuật Chính:

  • Chế độ write-through: An toàn hơn cho tính toàn vẹn dữ liệu, việc ghi bỏ qua bộ nhớ đệm
  • Chế độ write-back: Hiệu suất tốt hơn nhưng có nguy cơ mất dữ liệu cao hơn
  • Vấn đề tính nhất quán: Thách thức trong môi trường hệ thống tập tin phân tán đa nút
  • Định cỡ bộ nhớ đệm: Kích thước tối ưu phụ thuộc vào các mẫu tập hợp làm việc của ứng dụng

Đánh đổi giữa chi phí và hiệu suất dưới sự xem xét kỹ lưỡng

Cộng đồng cũng đã đặt câu hỏi về kinh tế học cơ bản đằng sau các khoản phí băng thông giữa các availability zone. Một số nhà phát triển cho rằng trong thời đại mạng 100-gigabit, những khoản phí này đại diện cho việc định giá nhân tạo hơn là chi phí hạ tầng thực tế. Các so sánh với các nhà cung cấp đám mây khác như Azure, không tính phí cho lưu lượng nội vùng, đã thúc đẩy các cuộc thảo luận về việc liệu mô hình định giá của AWS có được biện minh bởi các hạn chế kỹ thuật hay chỉ đơn giản là định vị thị trường.

Đối với các tổ chức xử lý các tập dữ liệu lớn và các mẫu truy cập ngẫu nhiên, hiệu quả của kích thước cache nhỏ vẫn là chủ đề tranh luận. Trong khi Upsun đạt được kết quả đáng chú ý với các volume cache 512MB, các nhà phát triển làm việc với các mẫu workload khác nhau đặt câu hỏi liệu tỷ lệ cache hit tương tự có thể đạt được trong môi trường của họ hay không.

Nhìn về phía trước

Cuộc thảo luận tiết lộ sự quan tâm ngày càng tăng đối với các giải pháp lưu trữ hybrid cân bằng giữa hiệu suất, chi phí và độ tin cậy. Khi chi phí hạ tầng đám mây tiếp tục tăng, nhiều tổ chức đang khám phá các cách tiếp cận sáng tạo để tối ưu hóa kiến trúc lưu trữ của họ. Kinh nghiệm đa dạng của cộng đồng với các công nghệ caching khác nhau cung cấp những hiểu biết có giá trị cho các nhóm đang xem xét triển khai tương tự, mặc dù sự đồng thuận vẫn là việc xem xét cẩn thận các yêu cầu về tính nhất quán dữ liệu là điều cần thiết cho bất kỳ chiến lược caching nào.

Tham khảo: How we cut AWS bandwidth costs 95% with dm-cache: fast local SSD caching for network storage