Khi các tổ chức tiếp tục đầu tư hàng tỷ đô vào cơ sở hạ tầng GPU cho các khối lượng công việc AI, một khoảng trống quan trọng đã xuất hiện trong khả năng giám sát và quan sát. Neurox, một nền tảng tự lưu trữ mới, nhằm giải quyết vấn đề này bằng cách cung cấp giải pháp giám sát GPU toàn diện được thiết kế đặc biệt cho môi trường Kubernetes.
![]() |
---|
Ảnh chụp màn hình này hiển thị kho lưu trữ GitHub của Neurox Control Helm Chart, hỗ trợ giám sát GPU trong môi trường Kubernetes |
Vấn đề về Khả năng Giám sát GPU
Sự phát triển nhanh chóng của cơ sở hạ tầng AI đã bộc lộ những hạn chế đáng kể trong các giải pháp giám sát hiện có. Theo các cuộc thảo luận trong cộng đồng công nghệ, các công cụ hiện tại không thể trả lời những câu hỏi cơ bản về việc sử dụng GPU, quyền sở hữu và chi phí. Các chỉ số truyền thống như DCGM_FI_DEV_GPU_UTIL có thể cho thấy điều gì đang xảy ra với GPU nhưng không phải lý do tại sao - khiến các đội không thể chẩn đoán các vấn đề như tài nguyên sử dụng không hiệu quả, ứng dụng cấu hình sai, hoặc các công việc âm thầm chuyển sang xử lý CPU.
GPU observability is broken... Despite companies throwing billions at GPUs, there's no easy way to answer basic questions: What's happening with my GPUs? Who's using them? How much is this project costing me?
Hầu hết các tổ chức hiện đang kết hợp các giải pháp sử dụng Prometheus, Grafana, và các script kubectl, tạo ra một cái nhìn phân mảnh về cơ sở hạ tầng GPU của họ. Cách tiếp cận này không đủ khi các đội cần hiểu mối quan hệ giữa các chỉ số, trạng thái Kubernetes, và dữ liệu tài chính trong các môi trường đa đám mây.
Cách Tiếp Cận của Neurox đối với Giám Sát GPU
Neurox kết hợp ba nguồn dữ liệu quan trọng để cung cấp khả năng giám sát toàn diện: thống kê thời gian chạy GPU từ NVIDIA SMI, thông tin pod đang chạy từ trạng thái Kubernetes, và dữ liệu node với các sự kiện từ trạng thái Kubernetes. Sự tích hợp này cho phép các đội theo dõi các vấn đề như trạng thái pod bị lỗi, lập lịch không chính xác, và các ứng dụng không sử dụng tài nguyên GPU đúng cách.
Nền tảng này cung cấp các bảng điều khiển được thiết kế riêng cho các vai trò khác nhau trong một tổ chức. Các nhà nghiên cứu có thể theo dõi khối lượng công việc từ khi tạo đến khi hoàn thành trên màn hình Workloads, trong khi các đội tài chính có thể truy cập dữ liệu chi phí được nhóm theo đội hoặc dự án trên màn hình Reports. Cách tiếp cận dựa trên vai trò này đáp ứng các nhu cầu đa dạng của quản trị viên, nhà phát triển, nhà nghiên cứu, và kiểm toán viên tài chính làm việc với cơ sở hạ tầng GPU.
Yêu cầu Nền tảng Neurox:
- Kubernetes và CLI 1.29+
- Helm CLI 3.8+
- 12 CPU
- 24 GB RAM
- 120 GB Lưu trữ Persistent Volume
- Ít nhất 1 node GPU
- Ingress có thể truy cập từ Internet
Tính năng chính:
- Giám sát sử dụng GPU theo thời gian thực và cảnh báo cho GPU không hoạt động
- Phân tích chi phí theo ứng dụng/nhóm/dự án
- Giao diện thống nhất trên AWS, GCP, Azure và cơ sở hạ tầng tại chỗ
- Tương thích với Kubernetes: kết nối các số liệu node với pod, job và người sở hữu đang chạy
- Kiểm tra sức khỏe GPU
Tính Linh Hoạt trong Triển Khai và Bảo Mật Dữ Liệu
Một khía cạnh quan trọng trong kiến trúc của Neurox là sự tách biệt giữa thành phần control plane và workload. Nền tảng được thiết kế như phần mềm tự lưu trữ để giữ dữ liệu nhạy cảm trong cơ sở hạ tầng của tổ chức. Đối với các đội có lưu trữ hạn chế trên các cụm GPU, Neurox cung cấp mô hình triển khai tách biệt - control plane có thể được cài đặt trên bất kỳ cụm Kubernetes nào có lưu trữ liên tục (như EKS, AKS, hoặc GKE), trong khi chỉ có agent workload nhẹ cần chạy trên các cụm GPU.
Tính linh hoạt này giải quyết các mối quan ngại về yêu cầu lưu trữ liên tục 120GB được đề cập trong tài liệu, làm cho giải pháp khả thi cho các cụm GPU bare metal với lưu trữ cục bộ hạn chế. Kiến trúc này cũng có khả năng cho phép các tùy chọn control plane lưu trữ trên đám mây trong tương lai trong khi vẫn giữ dữ liệu workload an toàn.
Neurox cung cấp một gói miễn phí để giám sát tối đa 64 GPU, bao gồm nhiều trường hợp sử dụng cá nhân, học thuật và thương mại nhẹ. Mặc dù hiện tại không phải là mã nguồn mở, công ty đã cho biết họ đang xem xét con đường này cho tương lai, nhận ra rằng các mối quan tâm về quyền riêng tư và chi phí thúc đẩy sự quan tâm đến các giải pháp mã nguồn mở thay thế.
Khi cơ sở hạ tầng AI tiếp tục phát triển về độ phức tạp và quy mô trong các môi trường đa đám mây, các công cụ giám sát được xây dựng chuyên biệt như Neurox có thể trở nên ngày càng quan trọng đối với các tổ chức muốn tối ưu hóa các khoản đầu tư GPU đáng kể của họ.
Tham khảo: Neurox Control Helm Chart