Bối cảnh lưu trữ dữ liệu đã chào đón một người chơi mới với Arc Core , một nền tảng data lake hiệu suất cao được xây dựng trên Apache Iceberg . Tuy nhiên, việc ra mắt nền tảng này đã khơi mào một cuộc thảo luận thú vị về việc đặt tên thương hiệu trong hệ sinh thái công nghệ đông đúc ngày nay.
Nhầm lẫn thương hiệu trong hệ sinh thái Arc
Cộng đồng đã nhanh chóng xác định một thách thức tiềm ẩn về thương hiệu đối với Arc Core . Với trình duyệt Arc , Arc Prize và Arc Institute đã được thiết lập trong không gian công nghệ, một số nhà phát triển lo ngại về khả năng hiển thị thương hiệu và sự nhầm lẫn trên thị trường. Người tạo ra đã thừa nhận mối quan tâm này nhưng giải thích rằng lựa chọn đặt tên xuất phát từ Ark - đại diện cho thứ gì đó lưu trữ và mang dữ liệu - được sửa đổi thành Arc để tránh các ý nghĩa tôn giáo.
Cuộc thảo luận về đặt tên này tiết lộ một thách thức rộng lớn hơn mà các sản phẩm công nghệ mới phải đối mặt: tìm kiếm những cái tên đặc biệt trong một thị trường ngày càng bão hòa. Mặc dù chức năng hoàn toàn khác với các sản phẩm Arc hiện có, việc chia sẻ tên có thể ảnh hưởng đến khả năng khám phá và nhận diện thương hiệu.
Khả năng kỹ thuật và các trường hợp sử dụng
Arc Core định vị mình như một kho dữ liệu và một hệ thống truy vấn tích cực, nhắm mục tiêu vào các khối lượng công việc IoT và chuỗi thời gian. Nền tảng này tự động suy luận schema từ dữ liệu đến và hỗ trợ tiến hóa schema mà không có thời gian ngừng hoạt động - một tính năng quan trọng cho các cấu trúc dữ liệu thay đổi nhanh chóng.
Hệ thống sử dụng phân vùng dựa trên thời gian theo giờ làm mặc định, với kế hoạch phân vùng tùy chỉnh theo thẻ hoặc các thuộc tính khác. Cách tiếp cận này tối ưu hóa các truy vấn phạm vi thời gian phổ biến trong các tình huống quan sát và IoT . Để xử lý khối lượng dữ liệu lớn, Arc Core gộp các lần ghi trước khi xóa và cung cấp các công việc nén tùy chọn để hợp nhất các tệp Parquet nhỏ hơn.
Trường hợp sử dụng của tôi không phải là IOT, nhưng khoảng một tháng một lần tôi nhận được một lượng dữ liệu khổng lồ từ nhà cung cấp. Hãy nghĩ đến hàng chục triệu hàng và hơn 100 cột. Việc làm sạch, thu thập và truy vấn dữ liệu này qua RDBMS tiêu chuẩn là một quá trình chậm và dễ vỡ.
Các Tính Năng Kỹ Thuật Chính:
- Tương thích với Apache Iceberg
- Tự động suy luận và phát triển schema
- Phân vùng theo thời gian (mặc định theo giờ)
- Hỗ trợ MessagePack và Line Protocol
- Lưu trữ tương thích S3 với backend MinIO
- Kiến trúc chỉ thêm dữ liệu với kế hoạch cập nhật/xóa thông qua viết lại
![]() |
---|
Giao diện kho lưu trữ GitHub cho dự án Arc, làm nổi bật sự phát triển và tập trung vào kỹ thuật |
Kiến trúc lưu trữ và tuyên bố về hiệu suất
Arc Core sử dụng MinIO làm backend lưu trữ chính, với những người tạo ra tuyên bố hiệu suất tốt hơn ClickHouse cho các truy vấn phạm vi thời gian trên lưu trữ S3 . Tuy nhiên, cộng đồng đã đặt ra những câu hỏi quan trọng về các điểm chuẩn này, lưu ý rằng việc thử nghiệm mạng cục bộ có thể không phản ánh các tình huống độ trễ S3 trong thế giới thực.
Nền tảng hoạt động chỉ thêm vào hiện tại, tương tự như hầu hết các hệ thống chuỗi thời gian, với các cập nhật và xóa được lên kế hoạch thông qua việc viết lại phân vùng. Lựa chọn thiết kế này ưu tiên thông lượng ghi và hiệu suất truy vấn phân tích hơn khả năng giao dịch.
Kết quả Hiệu suất Truy vấn:
- Q0 (Tổng hợp siêu dữ liệu): 3.4ms
- Q1 (Khả năng ghi): 8.3ms
- Q2 (Nhóm phức tạp): 133ms
- Q3 (Độ trễ ghi): 45.8ms
- Q4 (Bộ lọc đa nguồn): 2.38s
Định vị thị trường và phát triển tương lai
Hiện đang trong giai đoạn beta, Arc Core nhằm mục đích phục vụ như một cơ sở dữ liệu chính và một giải pháp lưu trữ dài hạn cho các hệ thống như TimescaleDB , InfluxDB và Kafka . Lộ trình bao gồm tích hợp Grafana , hỗ trợ ghi từ xa Prometheus và thực thi truy vấn phân tán.
Thành công của nền tảng có thể sẽ phụ thuộc vào mức độ tốt mà nó phân biệt mình về mặt kỹ thuật với các giải pháp đã được thiết lập, trong khi điều hướng những thách thức nhận diện thương hiệu đi kèm với việc chia sẻ một cái tên phổ biến trong hệ sinh thái công nghệ.
Tham khảo: Arc Core