Polars , thư viện xử lý dữ liệu đang phát triển nhanh chóng, đã chính thức ra mắt nền tảng đám mây với engine tính toán phân tán hiện đang trong giai đoạn beta mở. Đây là một bước quan trọng trong sứ mệnh của công ty nhằm thu hẹp khoảng cách mà họ gọi là DataFrame scale gap - sự phân chia lịch sử giữa tính dễ sử dụng cục bộ của pandas và khả năng mở rộng từ xa của PySpark .
Cộng đồng đặt câu hỏi về việc tiếp tục đầu tư vào Spark
Việc ra mắt đã khơi dậy những cuộc thảo luận thú vị trong cộng đồng nhà phát triển về tương lai của xử lý dữ liệu lớn. Một số nhà phát triển đang đặt câu hỏi tại sao các công ty lớn như Databricks vẫn tiếp tục đầu tư mạnh vào Apache Spark khi các lựa chọn thay thế mới hơn như Polars và DuckDB có thể đủ cho nhiều trường hợp sử dụng, đặc biệt là đối với các startup và công ty nhỏ hơn.
Thời điểm này có vẻ đặc biệt phù hợp khi các công ty như Palantir đã hỗ trợ mô hình bring your own compute, cho thấy sự chuyển dịch hướng tới các phương pháp cơ sở hạ tầng linh hoạt hơn, được người dùng kiểm soát.
Quản lý cơ sở hạ tầng đơn giản hóa thu hút sự chú ý
Một trong những khía cạnh được thảo luận nhiều nhất của Polars Cloud là cách tiếp cận trừu tượng hóa cơ sở hạ tầng. Trong khi các ví dụ ban đầu cho thấy người dùng chỉ định trực tiếp các loại instance AWS , nền tảng thực sự hỗ trợ các thông số tài nguyên trực quan hơn bằng cách sử dụng yêu cầu CPU và bộ nhớ thay vì tên instance cụ thể của đám mây.
Nhóm phát triển đã cho biết họ đang hướng tới các giải pháp tự động hóa cao hơn, bao gồm cấu hình cluster tối thiểu và tự động mở rộng dựa trên yêu cầu truy vấn. Điều này giải quyết một điểm đau phổ biến khi các nhà khoa học dữ liệu và phân tích viên cần hiểu chi tiết về cơ sở hạ tầng đám mây chỉ để chạy các phân tích của họ.
Phương pháp Đặc tả Tài nguyên:
Phương pháp 1: Loại instance AWS
pc.ComputeContext(
instance_type="m6i.large",
cluster_size=8,
storage=64
)
Phương pháp 2: Yêu cầu tài nguyên
pc.ComputeContext(
cpus=4,
memory=16
)
Chiến lược mở rộng độc đáo tạo sự khác biệt
Điều làm cho Polars Cloud đặc biệt thú vị là cách tiếp cận mở rộng đa hướng. Không giống như các hệ thống phân tán truyền thống chủ yếu tập trung vào mở rộng theo chiều ngang (thêm nhiều máy hơn), Polars cung cấp các chiến lược mở rộng theo chiều dọc, chiều ngang và chéo. Điều này có nghĩa là hệ thống có thể lựa chọn giữa việc sử dụng nhiều worker nhỏ hơn hoặc ít máy mạnh hơn tùy thuộc vào đặc điểm của workload.
Tính linh hoạt này có thể tác động đáng kể đến việc tối ưu hóa chi phí, vì một số hoạt động hưởng lợi nhiều hơn từ các node đơn mạnh mẽ thay vì xử lý phân tán, vốn đi kèm với overhead shuffling.
Các tùy chọn mở rộng quy mô của Polars Cloud:
- Mở rộng theo chiều ngang: Phương pháp truyền thống sử dụng nhiều worker nhỏ hơn
- Mở rộng theo chiều dọc: Một máy mạnh mẽ duy nhất cho các tác vụ tính toán chuyên sâu
- Mở rộng theo đường chéo: Phương pháp kết hợp với các kích thước worker không đồng nhất
- Tự động mở rộng: Tính năng được lên kế hoạch để tự động điều chỉnh tài nguyên
Định giá và định vị thị trường
Nền tảng hoạt động thông qua hóa đơn AWS , với phần đánh giá của Polars xuất hiện trực tiếp trên hóa đơn AWS của người dùng. Cách tiếp cận này định vị Polars Cloud như một lớp tối ưu hóa tính toán hơn là thay thế cho các kho dữ liệu như Snowflake . Các so sánh ban đầu cho thấy nó đang nhắm vào cùng thị trường với AWS Glue và các dịch vụ xử lý dữ liệu tương tự, với tuyên bố về việc nhanh hơn và hiệu quả chi phí hơn.
Trọng tâm vẫn tập trung vào các hoạt động DataFrame thay vì SQL , với nhóm phát triển cho biết rằng hỗ trợ SQL có thể xuất hiện sau nhưng không phải là ưu tiên hiện tại do thị trường xử lý SQL đã bão hòa.
Lộ trình các tính năng đã lên kế hoạch:
- Hỗ trợ triển khai tại chỗ: Sẽ ra mắt trong những tháng tới (các khách hàng đầu tiên đang được tích hợp)
- Bảng điều khiển cụm trực tiếp: Đang trong quá trình phát triển với tính năng giám sát cụm theo thời gian thực
- Điều phối tác vụ: Khả năng lập lịch tối thiểu (không thay thế Airflow / Prefect )
- Hỗ trợ danh mục: Tập trung vào tích hợp định dạng bảng Iceberg
- Đa khu vực: Mở rộng ra ngoài khu vực US East hiện tại
Nhìn về tương lai
Với các tính năng như hỗ trợ on-premise, dashboard cluster trực tiếp và tích hợp catalog được lên kế hoạch trong tương lai gần, Polars Cloud có vẻ được định vị để thách thức các công ty đã thành lập trong không gian xử lý dữ liệu phân tán. Sự kết hợp của API quen thuộc, mở rộng linh hoạt và tối ưu hóa chi phí có thể khiến nó trở thành một lựa chọn thay thế hấp dẫn cho các tổ chức muốn hiện đại hóa cơ sở hạ tầng xử lý dữ liệu mà không có độ phức tạp truyền thống liên quan đến tính toán phân tán.