Cộng đồng trí tuệ nhân tạo đang tham gia vào một cuộc tranh luận gay gắt về tương lai của Retrieval Augmented Generation ( RAG ), với một số nhà phát triển tuyên bố rằng các AI agent và việc mở rộng cửa sổ ngữ cảnh đang làm cho các pipeline RAG truyền thống trở nên lỗi thời. Cuộc thảo luận tập trung vào việc liệu các công cụ đơn giản như grep kết hợp với các mô hình ngôn ngữ lớn có thể thay thế các hệ thống embedding và cơ sở dữ liệu vector phức tạp hay không.
Các thành phần của pipeline RAG truyền thống:
- Thu thập và làm sạch dữ liệu
- Phân đoạn (chia dữ liệu thành các phần nhỏ hơn)
- Embedding (chuyển đổi thành biểu diễn vector)
- Lưu trữ cơ sở dữ liệu vector
- Truy xuất và tìm kiếm
- Sắp xếp lại theo mức độ liên quan
- Xây dựng prompt
Vấn đề mở rộng quy mô chia rẽ ý kiến
Một điểm tranh cãi chính xoay quanh các hạn chế về mở rộng quy mô. Các nhà phê bình cho rằng trong khi các phương pháp dựa trên grep hoạt động tốt với các codebase nhỏ có hàng nghìn file, chúng lại thất bại khi xử lý các bộ sưu tập tài liệu quy mô doanh nghiệp chứa hàng triệu file. Vấn đề cơ bản là grep thực hiện khớp từ khóa chính xác, điều này thất bại khi người dùng tìm kiếm các khái niệm bằng cách sử dụng thuật ngữ khác với những gì xuất hiện trong tài liệu.
Ví dụ, tìm kiếm các động lực tăng trưởng doanh thu sẽ không tìm thấy các tài liệu thảo luận về các yếu tố góp phần tăng doanh số bán hàng - một vấn đề không khớp từ vựng mà các embedding ngữ nghĩa được thiết kế để giải quyết. Hạn chế này trở nên đặc biệt có vấn đề trong môi trường doanh nghiệp nơi các tài liệu sử dụng ngôn ngữ đa dạng và các truy vấn khái niệm là phổ biến.
Thách thức hiệu suất thực tế
Các chuyên gia trong ngành báo cáo kết quả trái chiều khi triển khai những phương pháp mới hơn này. Một số nhà phát triển ca ngợi sự đơn giản của các tìm kiếm grep lặp lại, nơi các AI agent khám phá các thuật ngữ tìm kiếm mới từ kết quả ban đầu và lặp lại quy trình. Tuy nhiên, những người khác chỉ ra rằng phương pháp này trở nên tốn kém về mặt tính toán và chậm khi xử lý các bộ sưu tập tài liệu lớn và nhiều người dùng đồng thời.
Yếu tố chi phí là đáng kể. Xử lý hàng tỷ token thông qua các mô hình ngôn ngữ lớn có thể dẫn đến chi phí suy luận lên tới hàng nghìn đô la Mỹ cho một truy vấn duy nhất, khiến nó không khả thi về mặt kinh tế đối với nhiều trường hợp sử dụng. Ngoài ra, thời gian cần thiết cho tìm kiếm agentic - có thể liên quan đến 20-30 lời gọi hàm khác nhau cho mỗi cuộc điều tra - làm cho nó chậm hơn các phương pháp RAG truyền thống, ngay cả khi kết quả có thể chính xác hơn.
So sánh hiệu suất:
- Phương pháp dựa trên Grep: Nhanh với các tập dữ liệu nhỏ (hàng nghìn tệp), gặp khó khăn với việc hiểu ngữ nghĩa
- Traditional RAG: Khớp ngữ nghĩa tốt, bảo trì pipeline phức tạp
- Agentic search: Kết quả vượt trội nhưng nhiều hơn 20-30 lần số lượng function call, chi phí cao hơn
- Hybrid systems: Cân bằng giữa hiểu ngữ nghĩa và hiệu quả xử lý
Giải pháp trung gian kết hợp
Nhiều nhà phát triển đang tìm thấy thành công với các phương pháp kết hợp kết hợp những điều tốt nhất của cả hai thế giới. Các hệ thống này sử dụng tìm kiếm ngữ nghĩa để khám phá tài liệu ban đầu trong khi tận dụng các cửa sổ ngữ cảnh lớn hơn để xử lý các file hoàn chỉnh thay vì các đoạn nhỏ. Phương pháp này duy trì khả năng hiểu ngữ nghĩa của embeddings trong khi tận dụng khả năng cải thiện của mô hình ngôn ngữ.
Tìm kiếm agentic với một số công cụ cơ bản (được rút ra từ BM25 , tìm kiếm ngữ nghĩa, thẻ, SQL , knowledge graph và một số hàm truy xuất tùy chỉnh) vượt trội hơn hẳn RAG theo kinh nghiệm của tôi.
Ngành xây dựng cung cấp một ví dụ thuyết phục về những thách thức này. Các công ty xử lý tài liệu đấu thầu thường xử lý các file riêng lẻ chứa hàng tỷ token - vượt xa khả năng cửa sổ ngữ cảnh hiện tại và dẫn đến chi phí xử lý cấm đoán.
Khả năng Tìm kiếm Chủ động:
- Các cuộc gọi API và duyệt web
- Tính toán toán học
- Tạo quy trình làm việc và lập kế hoạch
- Thực thi tác vụ với nhiều LLM
- Suy luận thời gian thực trên thông tin được truy xuất
- Tinh chỉnh tìm kiếm lặp đi lặp lại
Tương lai của truy xuất thông tin
Cuộc tranh luận phản ánh một xu hướng rộng lớn hơn trong phát triển AI nơi các khả năng mới làm cho các giải pháp thay thế trước đây trở nên lỗi thời. Khi các cửa sổ ngữ cảnh mở rộng và chi phí mô hình giảm, các phương pháp đơn giản hơn trở nên khả thi hơn. Tuy nhiên, quá trình chuyển đổi không đồng nhất trên tất cả các trường hợp sử dụng.
Tìm kiếm mã đã nổi lên như một câu chuyện thành công sớm cho các phương pháp dựa trên agent, chủ yếu vì các codebase có thuật ngữ và cấu trúc nhất quán hơn. Tìm kiếm tài liệu trong môi trường doanh nghiệp với ngôn ngữ đa dạng và các truy vấn phức tạp vẫn còn thách thức hơn đối với các phương pháp dựa trên từ khóa đơn giản.
Cuộc thảo luận cũng làm nổi bật mối quan ngại về độ tin cậy và bảo mật của các hệ thống agentic, điều này đưa ra sự phức tạp bổ sung và các điểm thất bại tiềm ẩn so với các pipeline truy xuất truyền thống. Một số nhà phát triển lo lắng về việc từ bỏ các thực hành kỹ thuật đã được chứng minh để ủng hộ các phương pháp được điều khiển bởi AI ít dự đoán được hơn.
Trong khi RAG có thể không chết, nó rõ ràng đang phát triển. Các hệ thống thành công nhất có khả năng là những hệ thống kết hợp một cách chu đáo các kỹ thuật truy xuất thông tin truyền thống với các khả năng AI mới hơn, thay vì hoàn toàn thay thế cái này bằng cái khác. Cuộc tranh luận tiếp tục khi các nhà phát triển làm việc để tìm ra sự cân bằng phù hợp giữa sự đơn giản, hiệu suất và độ tin cậy cho các trường hợp sử dụng cụ thể của họ.
Tham khảo: The RAG Obituary: Killed by Agents, Buried by Context Windows