Công cụ Vector Embedding mới của PostgreSQL thách thức mô hình cơ sở dữ liệu Vector truyền thống

Nhóm biên tập BigGo

Công cụ Vector Embedding mới của PostgreSQL thách thức mô hình cơ sở dữ liệu Vector truyền thống

Cuộc tranh luận về cơ sở dữ liệu vector và lưu trữ embedding đã có bước ngoặt mới với sự ra mắt của Pgai Vectorizer - một công cụ PostgreSQL mã nguồn mở từ Timescale, tái định nghĩa vector embedding như các chỉ mục cơ sở dữ liệu. Sự phát triển này diễn ra vào thời điểm nhiều tổ chức đang đặt câu hỏi về sự cần thiết của các cơ sở dữ liệu vector chuyên dụng cho ứng dụng AI của họ.

Góc nhìn mới về lưu trữ Vector

Thay vì xử lý embedding như các điểm dữ liệu độc lập, Pgai Vectorizer giới thiệu một cách tiếp cận mới bằng cách tự động duy trì mối quan hệ giữa dữ liệu nguồn và embedding của nó. Khi dữ liệu nguồn được sửa đổi, các embedding tương ứng sẽ tự động được cập nhật, loại bỏ nhu cầu đồng bộ hóa thủ công vốn gây khó khăn cho nhiều giải pháp hiện tại.

Tính năng và khả năng chính

Đồng bộ hóa tự động : Công cụ tự động xử lý cập nhật embedding khi dữ liệu nguồn thay đổi, tận dụng các khả năng sẵn có của PostgreSQL
Tích hợp OpenAI : Hiện hỗ trợ OpenAI như nhà cung cấp embedding, với kế hoạch hỗ trợ các mô hình cục bộ và mã nguồn mở
Tiếp cận SQL-First : Cho phép sử dụng đầy đủ các tính năng SQL thay vì bị giới hạn bởi REST API
Quản lý tài nguyên : Hoạt động với StreamingDiskANN thông qua pgvectorscale để cải thiện khả năng mở rộng và tìm kiếm có lọc

Cân nhắc và thách thức kỹ thuật

Cộng đồng đã nêu bật một số khía cạnh kỹ thuật quan trọng:

Cường độ tài nguyên : Chỉ mục HNSW sử dụng pgvector có thể tiêu tốn nhiều tài nguyên, với chỉ số nhỏ chứa hàng chục triệu embedding có thể chiếm đến hàng trăm gigabyte không gian đĩa
Khả năng lọc : Giải pháp giải quyết các hạn chế trong triển khai HNSW của pgvector thông qua pgvectorscale, cho phép tìm kiếm có lọc chính xác hơn
Quản lý tải : Người dùng có thể sử dụng bản sao để phục vụ truy vấn ứng dụng và giảm tải cho cơ sở dữ liệu chính

Các phương pháp tiếp cận thay thế

Lĩnh vực lưu trữ vector cung cấp nhiều giải pháp khác nhau:

FAISS : Cung cấp sự đơn giản như SQLite cho vector embedding nhưng thiếu các tính năng cơ sở dữ liệu truyền thống
Elastic's semantic_text : Cung cấp tính năng phân đoạn và tính toán embedding tự động với các giá trị mặc định hợp lý
DuckDB : Gần đây đã thêm hỗ trợ kiểu vector, cho thấy hiệu suất đầy hứa hẹn
Chroma, Weaviate : Cung cấp chức năng tương tự với các cách tiếp cận triển khai khác nhau

Cân nhắc tương lai

Lĩnh vực lưu trữ vector và quản lý embedding vẫn đang phát triển, với các cuộc thảo luận đang diễn ra về:

Chiến lược phân đoạn tối ưu cho tài liệu
Thực hành tốt nhất cho việc bảo toàn ngữ cảnh xung quanh các đoạn tài liệu
Phương pháp triển khai tìm kiếm kết hợp
Chiến lược phiên bản và cập nhật embedding

Công cụ này đại diện cho một bước tiến quan trọng hướng tới việc đơn giản hóa việc triển khai tìm kiếm vector trong khi vẫn duy trì tính nhất quán của cơ sở dữ liệu, mặc dù cuộc thảo luận rộng hơn về các thực hành tốt nhất trong lưu trữ và truy xuất vector vẫn tiếp tục phát triển.

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌