Vấn đề chi phí ẩn của OpenTelemetry: Tại sao hóa đơn quan sát hệ thống đang tăng vọt

Nhóm Cộng đồng BigGo
Vấn đề chi phí ẩn của OpenTelemetry: Tại sao hóa đơn quan sát hệ thống đang tăng vọt

Ngành công nghiệp quan sát hệ thống đang đối mặt với một cuộc khủng hoảng ngày càng gia tăng mà nhiều tổ chức chỉ phát hiện ra khi nhận hóa đơn hàng tháng. Trong khi OpenTelemetry ( OTel ) đã giải quyết được vấn đề quan trọng về việc bị nhà cung cấp khóa chặt, nó đã vô tình tạo ra một thách thức mới: chi phí dữ liệu tăng cao đáng kể có thể nhanh chóng vượt khỏi tầm kiểm soát.

Lời hứa của các công cụ quan sát hiện đại có vẻ đơn giản. Thu thập dữ liệu toàn diện về hệ thống của bạn, có được những hiểu biết sâu sắc và ngăn chặn sự cố trước khi chúng xảy ra. Tuy nhiên, thực tế đã chứng minh đắt đỏ hơn nhiều so với dự kiến, với một số tổ chức nhận được những hóa đơn khiến ngay cả những CFO dày dạn kinh nghiệm cũng phải sốc.

Kiểm tra thực tế về giá cả

Các nhà cung cấp quan sát hiện đại đã áp dụng mô hình định giá dựa trên mức tiêu thụ có vẻ hợp lý ở cái nhìn đầu tiên. New Relic tính phí khoảng 0,30 đô la Mỹ mỗi gigabyte, trong khi Datadog cung cấp nhiều gói khác nhau từ 1,50-1,64 đô la Mỹ mỗi host và phí bổ sung cho các metric tùy chỉnh và sự kiện. Dynatrace cũng theo mô hình tương tự với phí cho metric tùy chỉnh, lưu trữ log và xử lý span.

Những con số này trông có thể quản lý được khi xem riêng lẻ, nhưng khối lượng công việc sản xuất lại kể một câu chuyện khác. Trường hợp nổi tiếng về hóa đơn Datadog 165 triệu đô la Mỹ đã trở thành một câu chuyện cảnh báo trong các cộng đồng quan sát, làm nổi bật việc chi phí có thể leo thang nhanh chóng như thế nào khi các tổ chức thu thập mọi thứ mà không có kế hoạch chiến lược.

Các cuộc thảo luận cộng đồng tiết lộ một mô hình sốc về giá cả trên toàn ngành. Các tổ chức thường bắt đầu với việc đo lường toàn diện, thu thập lượng lớn dữ liệu telemetry phòng khi cần thiết, chỉ để phát hiện ra họ đang đốt cháy ngân sách mà không có giá trị rõ ràng. Một kỹ sư nền tảng lưu ý rằng các nhóm không có kế hoạch cho dữ liệu giám sát của họ, chỉ đơn giản là kích hoạt tất cả các chính sách đo lường và lưu trữ, dẫn đến chi tiêu phi lý.

So sánh giá các nền tảng Observability

Nền tảng Mô hình giá Chi phí chính
New Relic 0,30 USD mỗi GB Thu thập dữ liệu
Datadog 1,50-1,64 USD mỗi host Cộng với metrics, events, spans
Dynatrace 16 USD cho 10.000 metrics Cộng với phí lưu trữ và truy vấn
Grafana Cloud 8,00 USD cho 500 metrics/logs/traces Có tùy chọn tự triển khai

Vấn đề hiệu quả của OpenTelemetry

Trong khi OTel xuất sắc trong việc ngăn chặn việc bị nhà cung cấp khóa chặt, nó tạo ra chi phí riêng mà nhiều người không nhận ra cho đến khi quá muộn. Giao thức này không được thiết kế với hiệu quả chi phí là mối quan tâm chính, dẫn đến lạm phát dữ liệu làm trầm trọng thêm vấn đề định giá.

Một thông điệp syslog điển hình nặng khoảng 420 byte ở định dạng gốc, nhưng phiên bản OTel có thể lớn hơn 29% so với JSON và hơn gấp đôi kích thước của thông điệp gốc. Tình hình trở nên nghiêm trọng hơn với các metric: một metric Prometheus tiêu chuẩn ở 293 byte phình to lên 751 byte khi chuyển đổi sang định dạng OTLP.

751 metric được ghi lại tốt hơn nên có một câu chuyện tuyệt vời về bối cảnh để biện minh cho chi phí đó.

Lạm phát dữ liệu này xảy ra vì OTel được thiết kế trong thời đại khi các kỹ sư quan tâm nhiều hơn về khó khăn trong thu thập dữ liệu hơn là chi phí lưu trữ và truyền tải. Giao thức ưu tiên bối cảnh và metadata toàn diện hơn là hiệu quả, tạo ra một cơn bão hoàn hảo khi kết hợp với định giá dựa trên mức tiêu thụ.

Ví dụ về Chi phí Dữ liệu của OpenTelemetry

  • Thông điệp Syslog: 420 bytes (ban đầu) → lớn hơn 29% ở định dạng OTel
  • Metric Prometheus: 293 bytes (JSON) → 751 bytes (định dạng OTLP)
  • Tác động Tổng thể: Dung lượng dữ liệu thường lớn hơn 2.5 lần

Thách thức thay đổi văn hóa

Vấn đề gốc rễ mở rộng ra ngoài các hạn chế kỹ thuật đến văn hóa tổ chức. Nhiều nhóm vẫn hoạt động theo mô hình cũ nơi lưu trữ về cơ bản là miễn phí sau chi phí phần cứng ban đầu. Tư duy thu thập mọi thứ mãi mãi này có ý nghĩa khi hệ thống ở tại chỗ, nhưng trở nên tàn phá về mặt tài chính với các dịch vụ quan sát dựa trên đám mây.

Các kỹ sư tự nhiên muốn đo lường toàn diện. Khi thêm metric vào code, tại sao không bao gồm nhiều hơn thay vì ít hơn? Tại sao không thêm mọi nhãn và thẻ có thể? Cách tiếp cận này tạo ra sự ngắt kết nối giữa nhà phát triển viết code đo lường và tác động tiêu thụ tài nguyên trên pipeline quan sát.

Cộng đồng đã bắt đầu ủng hộ cách tiếp cận có chọn lọc hơn, tương tự như triết lý dọn dẹp của Marie Kondo. Trước khi thu thập bất kỳ dữ liệu telemetry nào, các nhóm nên đặt những câu hỏi cơ bản: Tôi sẽ làm gì với dữ liệu này? Ai sẽ sử dụng nó? Tôi cần lưu trữ nó trong bao lâu? Và quan trọng là, ai sẽ trả tiền cho nó?

Tự lưu trữ như một giải pháp

Nhiều tổ chức đang tái khám phá giá trị của các giải pháp tự lưu trữ. Grafana cung cấp các lựa chọn thay thế mã nguồn mở có thể giảm đáng kể chi phí cho các nhóm sẵn sàng xử lý triển khai và bảo trì. Một số công ty báo cáo chạy giám sát cơ sở hạ tầng doanh nghiệp chỉ với 90 đô la Mỹ mỗi tháng sử dụng Grafana tự lưu trữ trên AWS ECS, so với chi phí nền tảng quan sát doanh nghiệp.

Tuy nhiên, tự lưu trữ đòi hỏi cam kết tổ chức và chuyên môn kỹ thuật. Các nhóm phải chống lại mô hình phổ biến của việc bắt đầu với các giải pháp tự lưu trữ, tập trung hóa chúng do thách thức mở rộng, sau đó thuê ngoài với chi phí gấp 10 lần khi nhóm tập trung gặp khó khăn với độ tin cậy.

Hiểu biết chính từ các cuộc thảo luận cộng đồng là hầu hết các nhóm không cần nền tảng quan sát cấp doanh nghiệp. Các biểu đồ và cảnh báo cơ bản thường đủ, làm cho cách tiếp cận Honda Accord thực tế hơn giải pháp Cadillac Escalade cho nhiều trường hợp sử dụng.

Các Chiến lược Tối ưu hóa Chi phí

  • Triển khai các chính sách lấy mẫu dữ liệu và lưu trữ
  • Sử dụng công cụ đo lường có chọn lọc thay vì "thu thập tất cả mọi thứ"
  • Cân nhắc các giải pháp tự lưu trữ cho việc giám sát không quan trọng
  • Đặt ra các câu hỏi chiến lược: Dữ liệu gì? Ai sử dụng? Lưu trữ trong bao lâu?
  • Phương pháp kết hợp: Nền tảng doanh nghiệp cho các hệ thống quan trọng, tự lưu trữ cho các hệ thống khác

Tìm kiếm sự cân bằng phù hợp

Ngành công nghiệp quan sát đang đứng ở ngã tư. Trong khi thu thập telemetry toàn diện cung cấp những hiểu biết có giá trị, quỹ đạo hiện tại của việc thu thập dữ liệu không giới hạn là không bền vững về mặt tài chính đối với hầu hết các tổ chức. Giải pháp không phải là từ bỏ các công cụ quan sát hiện đại mà là phát triển các cách tiếp cận chiến lược hơn đối với thu thập và lưu trữ dữ liệu.

Các tổ chức thông minh đang triển khai các chiến lược lấy mẫu, chính sách vòng đời dữ liệu và đo lường có chọn lọc. Họ đang đặt những câu hỏi khó về giá trị dữ liệu và triển khai quản trị xung quanh việc thu thập telemetry. Một số đang áp dụng các cách tiếp cận lai, sử dụng nền tảng doanh nghiệp cho các hệ thống quan trọng trong khi dựa vào các giải pháp tự lưu trữ cho nhu cầu giám sát ít quan trọng hơn.

Tương lai có thể sẽ có nhiều thực hành quan sát có ý thức chi phí hơn khi ngành công nghiệp trưởng thành vượt ra ngoài thời đại được tài trợ bởi vốn đầu tư mạo hiểm với chi tiêu không giới hạn. Các tổ chức thích ứng ngay bây giờ bằng cách triển khai các chính sách thu thập dữ liệu chiến lược sẽ tránh được cú sốc về giá cả đã trở nên quá phổ biến trong các triển khai quan sát hiện đại.

Tham khảo: Who the Hell is Going to Pay For This?