Tìm kiếm dựa trên công cụ nổi lên như giải pháp thay thế đơn giản hơn cho RAG Embeddings

Nhóm Cộng đồng BigGo

Tìm kiếm dựa trên công cụ nổi lên như giải pháp thay thế đơn giản hơn cho RAG Embeddings

Trong khi Google đang quảng bá mô hình Gemini Embedding để hỗ trợ các hệ thống tạo sinh tăng cường truy xuất (RAG), ngày càng có nhiều nhà phát triển đặt câu hỏi liệu các phương pháp dựa trên embedding truyền thống có còn là giải pháp tốt nhất hay không. Cuộc thảo luận trong cộng đồng cho thấy một sự chuyển dịch đáng kể hướng tới các phương pháp tìm kiếm dựa trên công cụ có thể mang lại kết quả tốt hơn với độ phức tạp thấp hơn.

Khoảng cách giữa Marketing và Thực tế

Thông báo của Google về khả năng Gemini Embedding đã gây ra cuộc tranh luận về việc đưa trực tiếp vào bộ nhớ làm việc của mô hình thực sự có nghĩa là gì. Thực tế thì bình thường hơn những gì marketing gợi ý. Embeddings hoạt động bằng cách chuyển đổi văn bản thành các vector số có thể được lưu trữ trong cơ sở dữ liệu vector để tìm kiếm tương tự. Khi có truy vấn, hệ thống tìm các vector tương tự và đưa văn bản gốc trở lại mô hình ngôn ngữ - chứ không phải bản thân các embeddings.

Quá trình này bao gồm việc chia tài liệu thành các phần nhỏ hơn, tạo embeddings cho mỗi phần, lưu trữ chúng trong cơ sở dữ liệu vector, và sau đó sử dụng tìm kiếm tương tự để truy xuất văn bản liên quan. Không có thời điểm nào embeddings thực sự đi vào bộ nhớ của mô hình một cách trực tiếp.

Kích thước Embedding Matryoshka:

Mặc định: 3072 chiều
Kích thước được khuyến nghị: 768, 1536, 3072
Tối thiểu hiệu quả: 256 chiều
Lợi ích: Giảm chi phí lưu trữ và truy xuất nhanh hơn với mức độ mất hiệu suất tối thiểu

Tìm kiếm dựa trên công cụ ngày càng phổ biến

Một xu hướng đáng chú ý xuất hiện từ các cuộc thảo luận của nhà phát triển là sự chuyển dịch hướng tới các phương pháp tìm kiếm dựa trên công cụ. Thay vì tính toán trước embeddings và lưu trữ chúng trong cơ sở dữ liệu vector, các nhà phát triển đang cho phép các mô hình ngôn ngữ truy cập trực tiếp vào các công cụ tìm kiếm như ripgrep hoặc các công cụ tìm kiếm toàn văn.

Phương pháp này mang lại nhiều lợi thế. Các mô hình ngôn ngữ hiện đại đã trở nên tinh vi đủ để thích ứng các mẫu tìm kiếm của chúng một cách động, tìm kiếm các biến thể như dog OR canine trong khi độ tương tự vector có thể bỏ lỡ các kết nối. Việc thiết lập cũng đơn giản hơn đáng kể - các nhà phát triển tránh được sự phức tạp của việc chọn chiến lược phân đoạn, quản lý lưu trữ embedding, và giữ cơ sở dữ liệu vector trong bộ nhớ.

Việc làm cho embeddings hoạt động đòi hỏi rất nhiều công việc: bạn cần quyết định chiến lược phân đoạn, sau đó chạy embeddings, rồi quyết định cách tốt nhất để lưu trữ chúng để truy xuất nhanh.

So sánh RAG và Tìm kiếm dựa trên Công cụ:

Khía cạnh	RAG Truyền thống	Tìm kiếm dựa trên Công cụ
Độ phức tạp thiết lập	Cao (phân đoạn, nhúng, cơ sở dữ liệu vector)	Thấp (tích hợp công cụ trực tiếp)
Khả năng mở rộng	Tuyến tính với embeddings	Đa thức với các hoạt động tìm kiếm
Bảo trì	Yêu cầu cập nhật mô hình thường xuyên	Bảo trì liên tục tối thiểu
Hiệu suất	Có thể dự đoán, được tối ưu hóa cho độ tương tự	Động, các mẫu tìm kiếm có thể thích ứng


Giao diện ứng dụng nhắn tin hiện đại này minh họa cho sự đơn giản và hiệu quả của các phương pháp tìm kiếm dựa trên công cụ được thảo luận trong đoạn văn

Hiệu suất và Cân nhắc thực tế

So sánh hiệu suất giữa RAG dựa trên embedding và tìm kiếm dựa trên công cụ cho thấy những đánh đổi thú vị. Các phương pháp dựa trên công cụ có thể có chi phí tính toán cao hơn cho mỗi truy vấn, tỷ lệ với số lượng tài liệu đích và các hoạt động tìm kiếm. Các hệ thống RAG truyền thống cung cấp khả năng mở rộng tuyến tính dự đoán được hơn nhưng đòi hỏi đầu tư đáng kể về cơ sở hạ tầng và điều chỉnh.

Đối với các bộ sưu tập tài liệu nhỏ hơn, tìm kiếm dựa trên công cụ thường chứng minh là thực tế hơn. Tuy nhiên, khi xử lý hàng triệu tài liệu, một số hình thức lập chỉ mục tìm kiếm trở nên cần thiết bất kể phương pháp nào được chọn.


Trung tâm Điều hành Lâm sàng minh họa các cân nhắc về hiệu suất trong việc quản lý dữ liệu trong các tình huống ứng dụng khác nhau, nhấn mạnh hiệu quả thực tế trong xử lý tài liệu

Thách thức về việc ngừng hỗ trợ

Một vấn đề thường bị bỏ qua với các dịch vụ embedding trên đám mây là chu kỳ ngừng hỗ trợ tích cực. Người dùng Google Cloud Platform báo cáo cần phải xử lý lại dữ liệu của họ thông qua các mô hình embedding mới khoảng mỗi 12 tháng khi các mô hình cũ hơn bị ngừng hỗ trợ. Điều này tạo ra chi phí liên tục và gánh nặng bảo trì mà nhiều tổ chức không lường trước được.

Các mô hình embedding mã nguồn mở như Nomic và các mô hình Qwen3 được phát hành gần đây cung cấp nhiều quyền kiểm soát hơn đối với lịch trình ngừng hỗ trợ, cho phép các tổ chức lưu trữ mô hình riêng của họ và nâng cấp theo lịch trình của riêng họ.

Điểm chuẩn hiệu suất của Gemini Embedding:

Khám phá pháp lý Everlaw : độ chính xác 81% (so với Voyager 84%, OpenAI 73%)
Phân tích tài chính Recop : cải thiện điểm F1 1.9% so với text-embedding-004
Hỗ trợ sức khỏe Mindlid : tỷ lệ recall top-3 đạt 80% với độ trễ trung vị 420ms

Kết luận

Bối cảnh embedding đang phát triển nhanh chóng, với tìm kiếm dựa trên công cụ nổi lên như một giải pháp thay thế hấp dẫn cho các phương pháp RAG truyền thống. Trong khi embeddings vẫn có vị trí của chúng, đặc biệt là cho các ứng dụng quy mô lớn, sự đơn giản và hiệu quả của các phương pháp tìm kiếm dựa trên công cụ hiện đại đang khiến chúng ngày càng hấp dẫn cho nhiều trường hợp sử dụng. Sự lựa chọn giữa các phương pháp cuối cùng phụ thuộc vào các yêu cầu cụ thể về quy mô, khả năng chịu đựng độ phức tạp, và các cân nhắc bảo trì dài hạn.

Tham khảo: Gemini Embedding: Powering RAG and context engineering

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌