Clubhouse Từ Bỏ OpenTelemetry Để Chuyển Sang Giải Pháp Tùy Chỉnh, Đạt Mục Tiêu Chi Phí 500 Đô La Mỹ Mỗi Petabyte

Nhóm Cộng đồng BigGo
Clubhouse Từ Bỏ OpenTelemetry Để Chuyển Sang Giải Pháp Tùy Chỉnh, Đạt Mục Tiêu Chi Phí 500 Đô La Mỹ Mỗi Petabyte

Clubhouse đã tạo nên làn sóng trong cộng đồng observability bằng việc từ bỏ framework tiêu chuẩn ngành OpenTelemetry ( OTel ) để chuyển sang giải pháp logging tùy chỉnh. Động thái này đã giúp họ đạt được mục tiêu đầy tham vọng là xử lý dữ liệu observability chỉ với chi phí 500 đô la Mỹ mỗi petabyte trong khi xử lý hơn 100 petabyte dữ liệu nén mỗi ngày.

Quyết định này đã gây ra cuộc tranh luận sôi nổi trong cộng đồng các nhà phát triển về việc liệu việc thu thập dữ liệu khổng lồ như vậy có cần thiết hay chỉ đơn thuần là lãng phí. Công ty hiện đang xử lý 100 tỷ sự kiện mỗi ngày, đặt ra câu hỏi về giá trị của việc lưu trữ lượng dữ liệu log khổng lồ như vậy.

Các Cột Mốc Quy Mô Khả Năng Quan Sát của Clubhouse

Chỉ số Quy mô Ngày đạt được
Sự kiện mỗi ngày 100 tỷ Tháng 10 năm 2023
Dữ liệu thu thập mỗi ngày (đã nén) Hơn 100 Petabyte Tháng 11 năm 2023
Mục tiêu hiệu quả chi phí 500 USD mỗi Petabyte Mục tiêu hiện tại
Chi phí vận hành hàng ngày Dưới 50.000 USD Mục tiêu hiện tại

Cuộc Tranh Luận Lớn Về Logging: Lưu Trữ Tất Cả Hay Chọn Lọc

Cộng đồng đang chia rẽ sâu sắc về cách tiếp cận thu thập dữ liệu của Clubhouse . Những người chỉ trích cho rằng việc lưu trữ 100 petabyte log thể hiện sự phán đoán kém về kỹ thuật hơn là thành tựu công nghệ. Họ cho rằng phần lớn dữ liệu này bao gồm thông tin debug hiếm khi được kiểm tra trừ khi các hệ thống production đang gặp phải các vấn đề nghiêm trọng.

lưu trữ 100PB log chỉ có nghĩa là chúng ta chưa tìm ra được điều gì thực sự đáng để log. metrics + structured events thường có thể kể được 90% câu chuyện.

Tuy nhiên, những người ủng hộ phản bác rằng việc có dữ liệu toàn diện sẵn sàng là rất quan trọng để debug các vấn đề bất ngờ. Họ chỉ ra rằng việc lọc log quá tích cực có thể khiến các kỹ sư không có thông tin cần thiết khi điều tra các vấn đề phức tạp không được dự đoán trước trong thiết kế logging ban đầu.

Cuộc tranh luận phản ánh sự căng thẳng cơ bản trong phát triển phần mềm hiện đại giữa tối ưu hóa chi phí và khả năng hiển thị hoạt động. Một số tổ chức ưa thích logging tinh gọn với việc tuyển chọn cẩn thận, trong khi những tổ chức khác áp dụng cách tiếp cận thu thập mọi thứ và lọc sau.

Kiến Trúc Kỹ Thuật: Đơn Giản Hóa Pipeline Dữ Liệu

Giải pháp kỹ thuật của Clubhouse bao gồm việc loại bỏ lớp collector của OpenTelemetry , mà họ thấy là thêm sự phức tạp và overhead không cần thiết. Thay vào đó, họ triển khai pipeline trực tiếp sử dụng FluentBit để stream application log trực tiếp vào ClickHouse , nền tảng cơ sở dữ liệu dạng cột của họ.

Thay đổi kiến trúc này đã giảm đáng kể yêu cầu xử lý của họ. Công ty báo cáo cần 8,000 CPU core để xử lý JSON log processing trong thiết lập trước đây, so với chỉ 90 core với cách tiếp cận mới. Pipeline đơn giản hóa loại bỏ nhiều bước serialization và deserialization đang tiêu tốn tài nguyên tính toán đáng kể.

Hệ thống mới sử dụng wide table schema trong ClickHouse , cho phép các kỹ sư lưu trữ dữ liệu sự kiện đa dạng trong một cấu trúc bảng duy nhất. Cách tiếp cận này cho phép truy vấn nhanh hơn và tương quan tốt hơn các sự kiện liên quan trong các phiên troubleshooting.

So sánh Kiến trúc Kỹ thuật

Thiết lập Trước đây (với OpenTelemetry):

  • Container stdout → CRI-O/dockerd
  • FluentBit thu thập và làm giàu dữ liệu với metadata Kubernetes
  • OTel collector xử lý dữ liệu trong bộ nhớ
  • OTel đẩy dữ liệu đã chuyển đổi đến streaming backend
  • ClickHouse nhận và lưu trữ dữ liệu
  • Yêu cầu: 8.000 lõi CPU để xử lý JSON

Thiết lập Mới (Custom Pipeline):

  • Streaming trực tiếp từ FluentBit đến ClickHouse
  • Định tuyến sự kiện dựa trên Lua trong FluentBit
  • Schemas bảng rộng cho phân tích chuyên biệt
  • Yêu cầu: 90 lõi CPU (giảm 99%)

Sự Đánh Đổi Giữa Chi Phí và Thời Gian Kỹ Thuật

Tác động tài chính của các nền tảng observability đã trở thành mối quan tâm lớn đối với các nhóm kỹ thuật. Một số thành viên cộng đồng đã chia sẻ kinh nghiệm với các nhà cung cấp như Datadog và Splunk , nơi việc gia hạn hợp đồng thường kích hoạt các biện pháp cắt giảm chi phí tích cực có thể làm tổn hại khả năng hiển thị hệ thống.

Các tổ chức ngày càng buộc phải cân bằng giữa hành vi hệ thống có thể quan sát được với các ràng buộc ngân sách. Một số công ty dành 5-10% tổng ngân sách cho logging và observability, xem đó là đầu tư cơ sở hạ tầng thiết yếu. Những công ty khác gặp khó khăn trong việc biện minh cho những chi phí này, đặc biệt khi giá trị khó định lượng trong các chỉ số kinh doanh truyền thống.

Thách thức trở nên phức tạp hơn khi xem xét chi phí ẩn của observability không đầy đủ. Các kỹ sư có thể dành hàng giờ hoặc hàng ngày để điều tra các vấn đề có thể được giải quyết trong vài phút với dữ liệu tracing và logging phù hợp. Tuy nhiên, việc định lượng tác động năng suất này vẫn khó khăn đối với hầu hết các tổ chức.

Hiệu Suất Cơ Sở Dữ Liệu Ở Quy Mô Lớn

Vai trò của ClickHouse như nền tảng lưu trữ đã thu hút sự chú ý đáng kể từ cộng đồng. Người dùng báo cáo cải thiện hiệu suất đáng kể so với các cơ sở dữ liệu truyền thống, với một số trải nghiệm tăng tốc 50 lần cho khối lượng công việc phân tích liên quan đến tập dữ liệu lớn.

Tuy nhiên, ClickHouse đi kèm với bộ thách thức riêng. Cơ sở dữ liệu hoạt động tốt nhất với các mẫu dữ liệu immutable, append-only, khiến nó ít phù hợp cho các ứng dụng yêu cầu cập nhật thường xuyên. Sự phụ thuộc vào các hệ thống phối hợp như Zookeeper cũng tạo ra sự phức tạp hoạt động mà một số nhóm thấy cồng kềnh.

Mô hình lưu trữ dạng cột của cơ sở dữ liệu xuất sắc trong việc xử lý các wide event schema mà Clubhouse sử dụng, cho phép truy vấn hiệu quả các cột dữ liệu cụ thể mà không cần quét toàn bộ tập dữ liệu. Khả năng này trở nên quan trọng khi xử lý khối lượng thông tin quy mô petabyte.

Cân Nhắc Về Quy Định và Quyền Riêng Tư

Cuộc thảo luận cũng đã làm nổi bật những mối quan tâm quan trọng về quy định, đặc biệt xung quanh việc lưu giữ dữ liệu và tuân thủ quyền riêng tư. Quy định GDPR của châu Âu hạn chế thời gian các tổ chức có thể lưu giữ log có thể chứa thông tin cá nhân, thường hạn chế log phân tích lỗi chung khoảng một tháng.

Khung quy định này buộc các công ty phải cân nhắc kỹ hơn về dữ liệu họ thu thập và lưu giữ lâu dài. Một số tổ chức đã phát hiện ra rằng tuân thủ GDPR thực sự cải thiện thực hành logging của họ bằng cách khuyến khích các chiến lược thu thập dữ liệu chu đáo hơn.

Thách thức trở thành việc cân bằng khả năng hiển thị hệ thống toàn diện với các yêu cầu về quyền riêng tư và chi phí lưu trữ. Các nền tảng observability hiện đại đang bắt đầu cung cấp các giải pháp lưu trữ phân tầng có thể lưu trữ log chi tiết trong khi giữ dữ liệu được truy cập thường xuyên trong các tầng lưu trữ nhanh hơn, đắt tiền hơn.

Kết Luận

Quyết định của Clubhouse thay thế OpenTelemetry bằng giải pháp tùy chỉnh phản ánh những căng thẳng rộng lớn hơn trong ngành xung quanh chi phí observability, chính sách lưu giữ dữ liệu và năng suất kỹ thuật. Mặc dù thành tựu kỹ thuật của họ ấn tượng, cộng đồng vẫn chia rẽ về việc liệu thu thập dữ liệu toàn diện như vậy có thể hiện thực hành kỹ thuật tốt hay over-engineering đắt đỏ.

Cuộc tranh luận cuối cùng tập trung vào quản lý rủi ro: rủi ro thiếu thông tin debugging quan trọng so với rủi ro chi phí cơ sở hạ tầng quá mức và các vấn đề tuân thủ quy định. Khi các công cụ observability tiếp tục phát triển, các tổ chức sẽ cần tìm ra sự cân bằng riêng giữa khả năng hiển thị toàn diện và các ràng buộc thực tế.

Tham khảo: Scaling our Observability platform beyond 100 Petabytes by embracing wide events and replacing OTel