Ngành công nghiệp trí tuệ nhân tạo đang đối mặt với một thách thức hạ tầng quan trọng khi hai tiêu chuẩn cạnh tranh đang chiến đấu để giành ưu thế trong lĩnh vực quan sát LLM. Trong khi OpenTelemetry đã khẳng định vị thế là tiêu chuẩn ngành cho việc giám sát ứng dụng, sự xuất hiện của các công cụ chuyên biệt cho AI đã tạo ra một hệ sinh thái phân mảnh gây ra những vấn đề thực tế cho các nhóm phát triển trong môi trường sản xuất.
![]() |
---|
Bảng điều khiển Phoenix hiển thị các span giám sát, làm nổi bật những thách thức về khả năng quan sát trong hiệu suất của các AI agent |
Thực Tế Kiểm Tra Trong Sản Xuất
Các công ty xây dựng AI agent đang phát hiện ra rằng các công cụ giám sát truyền thống không đáp ứng được khi gỡ lỗi các hành vi phức tạp của LLM. Các nhóm cần khả năng hiển thị vào các quy trình truy xuất tài liệu, lời gọi công cụ và chuỗi ra quyết định mà các nền tảng quan sát tiêu chuẩn không được thiết kế để xử lý. Vấn đề trở nên đặc biệt nghiêm trọng khi các hệ thống AI thể hiện những hành vi bất ngờ, như chuyển đổi ngôn ngữ ngẫu nhiên hoặc cung cấp phản hồi không chính xác mà không có lời giải thích rõ ràng.
Các hệ thống đa agent đặt ra những thách thức còn lớn hơn. Một nhà phát triển đã chia sẻ kinh nghiệm xây dựng các quy trình làm việc phức tạp nơi người dùng không chuyên kỹ thuật viết các prompt kéo dài hơn 10 trang. Yêu cầu quan sát của họ bao gồm đo lường độ phức tạp của tác vụ, các chỉ số thành công, tốc độ agent, theo dõi lỗi và chi phí sử dụng token. Độ phức tạp của những hệ thống này khiến việc giám sát toàn diện trở thành điều thiết yếu chứ không phải tùy chọn.
Lưu ý: Quan sát LLM đề cập đến khả năng giám sát và hiểu cách các mô hình ngôn ngữ lớn hoạt động trong sản xuất, bao gồm đầu vào, đầu ra và quy trình ra quyết định của chúng.
Yêu Cầu Quan Sát LLM
- Theo dõi truy xuất tài liệu cho các truy vấn RAG
- Giám sát lời gọi công cụ và đường dẫn thực thi
- Truy vết đầu vào/đầu ra tại mỗi bước xử lý
- Khả năng hiển thị quá trình ra quyết định
- Đánh giá độ phức tạp của nhiệm vụ
- Đo lường các chỉ số thành công
- Giám sát hiệu suất (tốc độ, thời gian chờ)
- Theo dõi chi phí (token được sử dụng)
- Phát hiện và phân loại lỗi
- Phối hợp quy trình làm việc đa tác nhân
Sự Chia Rẽ Tiêu Chuẩn Tạo Ra Những Vấn Đề Thực Tế
Xung đột giữa các tiêu chuẩn OpenTelemetry và OpenInference không chỉ là lý thuyết. OpenTelemetry cung cấp hỗ trợ ngôn ngữ rộng rãi và được ngành công nghiệp chấp nhận nhưng thiếu các loại span chuyên biệt cho AI, hạn chế khả năng hiển thị vào các hoạt động LLM. OpenInference cung cấp ngữ nghĩa phong phú chuyên biệt cho AI với các loại span cho lời gọi LLM, thực thi công cụ và quy trình làm việc của agent, nhưng có hỗ trợ ngôn ngữ hạn chế và tích hợp hệ sinh thái yếu hơn.
Sự chia rẽ này đặc biệt ảnh hưởng đến các nhóm sử dụng ngôn ngữ không có hỗ trợ trực tiếp OpenInference. Ví dụ, các nhà phát triển Ruby phải đối mặt với việc lựa chọn giữa xây dựng SDK tùy chỉnh, mất đi những hiểu biết chuyên biệt về AI, hoặc chuyển đổi hoàn toàn ngăn xếp công nghệ. Các tuyên bố về khả năng tương thích giữa các tiêu chuẩn thường tỏ ra hời hợt trong thực tế, với các công cụ hiển thị dữ liệu OpenTelemetry dưới dạng span không xác định khi chúng không nhận ra ngữ nghĩa chuyên biệt cho AI.
Lưu ý: Các loại span là các danh mục giúp phân loại các loại hoạt động khác nhau trong truy vết phân tán, chẳng hạn như lời gọi cơ sở dữ liệu, yêu cầu HTTP, hoặc trong trường hợp này, tương tác LLM.
So sánh OpenTelemetry và OpenInference
Tính năng | OpenTelemetry | OpenInference |
---|---|---|
Hỗ trợ ngôn ngữ | Toàn diện (tất cả các ngôn ngữ chính) | Hạn chế (không có Ruby SDK) |
Sự chấp nhận trong ngành | Được áp dụng rộng rãi, tiêu chuẩn ngành | Mới hơn, đang tăng trưởng về mức độ chấp nhận |
Tính năng đặc thù cho AI | Chỉ có các loại span cơ bản | Các loại span AI phong phú (LLM, công cụ, chuỗi, embedding, agent) |
Tích hợp hệ sinh thái | Xuất sắc | Tuyên bố tương thích hạn chế |
Sẵn sàng cho sản xuất | Trưởng thành và ổn định | Đang phát triển |
Các Giải Pháp Cộng Đồng và Cách Khắc Phục
Cộng đồng phát triển đã phản ứng với nhiều cách tiếp cận khác nhau để thu hẹp khoảng cách này. Một số nhóm đang xây dựng các giải pháp lai duy trì OpenTelemetry làm xương sống chính trong khi thêm các thuộc tính chuyên biệt cho AI. Những nhóm khác đang chọn các công cụ chuyên biệt bất chấp những thách thức tích hợp, chấp nhận quan sát phân mảnh để đổi lấy những hiểu biết tốt hơn về AI.
Vấn đề là, thực tế rằng việc giao tiếp với LLM thúc đẩy sự thiếu chính xác và sửa lỗi chính tả đồng thời nó đưa chúng ta tiếp xúc với cách viết có cấu trúc riêng của chúng có nghĩa là cách viết thông thường sẽ trôi dạt về chính xác loại hỗn hợp này.
Các cách tiếp cận tập trung vào cơ sở dữ liệu đang thu hút sự chú ý như những lựa chọn thay thế. Một số nhà phát triển đề xuất sử dụng các cơ sở dữ liệu quan hệ như ClickHouse cho dữ liệu quan sát LLM phong phú, bỏ qua hoàn toàn xung đột tiêu chuẩn. Cách tiếp cận này cung cấp tính linh hoạt nhưng đòi hỏi nhiều công việc phát triển tùy chỉnh hơn.
Lưu ý: ClickHouse là một hệ thống cơ sở dữ liệu hiệu suất cao được thiết kế cho khối lượng công việc phân tích và xử lý dữ liệu thời gian thực.
Con Đường Phía Trước
Các nhà quan sát ngành khuyến nghị theo dõi tiến trình của nhóm làm việc OpenTelemetry GenAI, đang tích cực phát triển các quy ước chuyên biệt cho AI trong tiêu chuẩn đã được thiết lập. Cách tiếp cận này cuối cùng có thể cung cấp ngữ nghĩa phong phú cần thiết cho quan sát LLM trong khi duy trì khả năng tương thích hệ sinh thái.
Đối với các nhóm hiện đang đối mặt với những quyết định này, sự đồng thuận nghiêng về việc duy trì tính nhất quán với hạ tầng hiện có. Các tổ chức đã sử dụng OpenTelemetry được khuyên nên mở rộng thiết lập hiện tại với các thuộc tính chuyên biệt cho AI thay vì giới thiệu các tiêu chuẩn cạnh tranh làm phân mảnh bức tranh quan sát của họ.
Giải pháp cuối cùng có thể đòi hỏi các công cụ quan sát AI phải căn chỉnh tốt hơn với các quy ước OpenTelemetry, hoặc OpenTelemetry phải đẩy nhanh việc phát triển tính năng chuyên biệt cho AI. Cho đến lúc đó, các nhóm phải điều hướng sự đánh đổi giữa sự phong phú ngữ nghĩa và tích hợp hệ sinh thái dựa trên nhu cầu cụ thể và ràng buộc kỹ thuật của họ.
Tham khảo: LLM Observability in the Wild - Why OpenTelemetry should be the Standard