MUVERA Đạt Được Giảm 90% Độ Trễ Đồng Thời Cải Thiện Độ Chính Xác Tìm Kiếm Đa Vector

Nhóm Cộng đồng BigGo
MUVERA Đạt Được Giảm 90% Độ Trễ Đồng Thời Cải Thiện Độ Chính Xác Tìm Kiếm Đa Vector

Các hệ thống truy xuất đa vector từ lâu đã phải đối mặt với sự đánh đổi khó khăn giữa độ chính xác và tốc độ. Mặc dù những hệ thống này có thể nắm bắt các mối quan hệ phong phú hơn trong dữ liệu so với các phương pháp vector đơn, chúng đi kèm với chi phí tính toán đáng kể khiến chúng trở nên không thực tế cho nhiều ứng dụng thực tế. Sự ra đời của MUVERA (Multi-Vector Retrieval via Fixed Dimensional Encodings) dường như đang thay đổi bối cảnh này bằng cách cung cấp một giải pháp mang lại cả hiệu suất cải thiện và giảm chi phí đáng kể.

MUVERA: Bước đột phá trong hiệu quả truy xuất đa vector và tính hiệu quả về chi phí
MUVERA: Bước đột phá trong hiệu quả truy xuất đa vector và tính hiệu quả về chi phí

Giải Quyết Vấn Đề Chi Phí Trong Hệ Thống Đa Vector

Cộng đồng đã đặc biệt tập trung vào những tác động thực tế của phương pháp giảm chi phí của MUVERA . Các hệ thống đa vector truyền thống như ColBERT tạo ra một embedding cho mỗi token, điều này có thể làm bùng nổ chiều không gian từ 768 chiều có thể quản lý được lên hơn 16.000 chiều đối với các tài liệu dài hơn. Sự gia tăng lớn về yêu cầu tính toán này đã khiến các phương pháp đa vector trở nên không khả thi cho nhiều trường hợp sử dụng, bất chấp độ chính xác vượt trội của chúng.

MUVERA giải quyết vấn đề này bằng cách chuyển đổi nhiều vector thành một vector có chiều cố định duy nhất có thể hoạt động với các thuật toán láng giềng gần nhất xấp xỉ (ANN) hiện có. Sự chuyển đổi này cho phép các nhà phát triển tận dụng tất cả các kỹ thuật tối ưu hóa hiện có và các phương pháp lượng tử hóa để tiết kiệm bộ nhớ, làm cho phương pháp này thực tế hơn nhiều so với các lựa chọn thay thế như PLAID yêu cầu cấu trúc chỉ mục cụ thể.

Các mô hình đa vector tạo ra nhiều embedding cho mỗi truy vấn hoặc tài liệu để nắm bắt các mối quan hệ ngữ nghĩa phong phú hơn, nhưng điều này đi kèm với chi phí tăng độ phức tạp tính toán.

So sánh Multi-Vector và Single-Vector:

  • Single-Vector truyền thống: Thông thường có 768 chiều
  • Multi-Vector (kiểu ColBERT ): 128 × 130 = 16,640 chiều
  • MUVERA : Mã hóa chiều cố định (thường nhỏ hơn multi-vector)
  • Tác động chi phí: Multi-vector có thể không khả thi do sự gia tăng chiều khổng lồ
  • Ưu thế của MUVERA : Duy trì độ chính xác multi-vector với hiệu quả single-vector

Đổi Mới Kỹ Thuật Thông Qua Xấp Xỉ Thông Minh

Đổi mới cốt lõi nằm ở phương pháp của MUVERA trong việc xấp xỉ các phép tính tương đồng đa vector phức tạp. Thay vì thực hiện các phép tính Chamfer matching tốn kém yêu cầu tích ma trận, hệ thống tạo ra các mã hóa chiều cố định (FDE) bảo tồn thông tin tương đồng thiết yếu trong một dạng nhỏ gọn. Thảo luận cộng đồng tiết lộ đây về cơ bản là một phương pháp phân cụm tinh vi phân vùng các token embedding và nối kết quả lại.

Điều làm cho điều này đặc biệt thú vị là việc chuyển đổi FDE không phụ thuộc vào dữ liệu, có nghĩa là nó không phụ thuộc vào các tập dữ liệu cụ thể. Điều này làm cho hệ thống mạnh mẽ trước những thay đổi trong phân phối dữ liệu và phù hợp cho các ứng dụng streaming. Các nền tảng lý thuyết cung cấp đảm bảo rằng việc xấp xỉ sẽ duy trì trong các giới hạn lỗi được chỉ định, mang lại cho các nhà phát triển sự tin tưởng vào độ tin cậy của hệ thống.

Chamfer matching là một phương pháp tính toán tương đồng tìm ra tương đồng tối đa giữa mỗi embedding truy vấn và embedding tài liệu gần nhất, sau đó tổng hợp các tương đồng này trên tất cả các vector truy vấn.

Cải Thiện Hiệu Suất Thực Tế

Các kết quả thử nghiệm chứng minh giá trị thực tế của MUVERA trên nhiều benchmark. Hệ thống đạt được recall cao hơn 10% so với PLAID trong khi giảm độ trễ 90% trên các tập dữ liệu BEIR . Có lẽ quan trọng hơn đối với các ứng dụng quan tâm đến chi phí, các FDE của MUVERA có thể truy xuất ít hơn 5-20 lần số lượng ứng viên để đạt được cùng mức recall, trực tiếp chuyển đổi thành giảm chi phí tính toán.

Hệ thống cũng hỗ trợ nén mạnh mẽ thông qua lượng tử hóa sản phẩm, giảm dung lượng bộ nhớ 32 lần với tác động tối thiểu đến chất lượng truy xuất. Sự kết hợp giữa cải thiện tốc độ và hiệu quả bộ nhớ này làm cho việc truy xuất đa vector trở nên dễ tiếp cận với một phạm vi rộng hơn nhiều các ứng dụng và ngân sách.

Cải thiện hiệu suất của MUVERA:

  • Giảm 90% độ trễ so với PLAID
  • Độ chính xác thu hồi cao hơn 10%
  • Cần ít hơn 5-20 lần số lượng ứng viên để đạt cùng mức độ thu hồi
  • Giảm 32 lần dung lượng bộ nhớ với lượng tử hóa tích
  • Hoạt động với các thuật toán ANN tiêu chuẩn (không cần cơ sở hạ tầng chuyên biệt)
Các chỉ số hiệu suất so sánh của MUVERA với các phương pháp truy xuất đa vector khác
Các chỉ số hiệu suất so sánh của MUVERA với các phương pháp truy xuất đa vector khác

Tác Động Rộng Lớn Đối Với Truy Xuất Thông Tin

Phản ứng của cộng đồng cho thấy MUVERA đại diện cho nhiều hơn chỉ là một cải tiến tăng dần. Bằng cách làm cho việc truy xuất đa vector trở nên thực tế ở quy mô lớn, nó mở ra những khả năng mới cho các công cụ tìm kiếm, hệ thống gợi ý và các ứng dụng xử lý ngôn ngữ tự nhiên trước đây không thể biện minh cho chi phí tính toán của các phương pháp đa vector.

Xu hướng chuyển từ mean-pooling đơn giản sang các chiến lược embedding tinh vi hơn dường như đang tăng tốc, với MUVERA cung cấp một cầu nối làm cho những kỹ thuật tiên tiến này trở nên khả thi về mặt kinh tế. Như một thành viên cộng đồng đã lưu ý, phương pháp này vượt trội hơn các lựa chọn thay thế vì nó hoạt động với các thuật toán ANN tiêu chuẩn thay vì yêu cầu cơ sở hạ tầng chuyên biệt.

Tham khảo: MUVERA: Making multi-vector retrieval as fast as single-vector search