Visual Document RAG Cho Thấy Tiềm Năng Nhưng Đối Mặt Với Thách Thức Mở Rộng Quy Mô Khi Các Nhà Phát Triển Chia Sẻ Kinh Nghiệm Thực Tế

Nhóm Cộng đồng BigGo
Visual Document RAG Cho Thấy Tiềm Năng Nhưng Đối Mặt Với Thách Thức Mở Rộng Quy Mô Khi Các Nhà Phát Triển Chia Sẻ Kinh Nghiệm Thực Tế

Cộng đồng công nghệ đang sôi nổi thảo luận về các hệ thống truy xuất tài liệu trực quan xử lý tài liệu dưới dạng hình ảnh thay vì trích xuất văn bản thông qua các phương pháp OCR truyền thống. Trong khi các công ty như Morphik quảng bá cách tiếp cận này là mang tính cách mạng, các nhà phát triển đã triển khai các hệ thống tương tự đang chia sẻ những kinh nghiệm trái chiều, cho thấy cả tiềm năng lẫn hạn chế của công nghệ này.

Tài Liệu Nhiều Trang Gây Ra Vấn Đề Độ Chính Xác Nghiêm Trọng

Thử nghiệm trong thực tế đã phơi bày một điểm yếu quan trọng trong xử lý tài liệu trực quan. Các nhà phát triển báo cáo rằng trong khi trích xuất một trang hoạt động tốt, độ chính xác giảm mạnh khi xử lý các tài liệu dài hơn năm trang. Hạn chế này xuất phát từ thách thức cơ bản của việc ghi nhớ ngữ cảnh dài trên hình ảnh, điều này vẫn khó hơn đáng kể so với ghi nhớ dựa trên văn bản ngay cả đối với các mô hình ngôn ngữ tiên tiến.

Vấn đề trở nên đặc biệt nghiêm trọng đối với các tài liệu phức tạp như hợp đồng pháp lý hoặc sách hướng dẫn kỹ thuật, nơi thông tin trải dài hàng chục trang và các phần khác nhau tham chiếu lẫn nhau trong suốt tài liệu. Trong những trường hợp này, các phương pháp dựa trên văn bản truyền thống thường chứng minh độ tin cậy cao hơn so với các phương pháp dựa trên hình ảnh.

Thách thức kỹ thuật:

  • Sự mơ hồ của ký tự: 0 và O, l và I trong nhiều phông chữ
  • Khả năng ghi nhớ ngữ cảnh dài: Hình ảnh khó xử lý hơn văn bản đối với các LLM
  • Chi phí dung lượng file: Tải xuống lớn hơn làm tăng độ trễ yêu cầu
  • Xử lý đa trang: Độ chính xác giảm đáng kể

Sự Đánh Đổi Về Chi Phí Và Hiệu Suất Gây Lo Ngại

Nhu cầu tính toán của xử lý tài liệu trực quan tạo ra chi phí phụ đáng kể so với các hệ thống dựa trên văn bản. Hình ảnh yêu cầu nhiều hơn 3 đến 5 lần số token so với văn bản thô khi được xử lý ở độ phân giải có thể đọc được, dẫn đến chi phí suy luận cao hơn và thời gian phản hồi chậm hơn. Ngoài ra, kích thước tệp lớn hơn còn tăng độ trễ cho mỗi yêu cầu chỉ từ việc tải xuống các hình ảnh cần thiết.

Những thách thức về hiệu suất này trở nên rõ rệt hơn ở quy mô lớn, nơi sự khác biệt giữa xử lý văn bản và hình ảnh có thể tác động đáng kể đến khả năng phản hồi của hệ thống và chi phí vận hành.

So sánh hiệu suất:

  • Xử lý hình ảnh: Sử dụng nhiều hơn 3-5 lần token so với văn bản thô
  • Cải thiện độ trễ truy vấn: 3-4 giây → 50ms (với các tối ưu hóa)
  • Suy giảm độ chính xác: Giảm mạnh sau các tài liệu trên 5 trang
  • Tác động chi phí: Chi phí suy luận cao hơn do tăng lượng sử dụng token

Các Phương Pháp Kết Hợp Cho Thấy Tiềm Năng Cho Ứng Dụng Thực Tế

Một số nhà phát triển đã tìm thấy thành công với các phương pháp kết hợp kết hợp điểm mạnh của cả hai cách tiếp cận. Một chiến lược hiệu quả bao gồm việc sử dụng các mô hình thị giác để chuyển đổi hình ảnh tài liệu thành văn bản có cấu trúc với đánh dấu ngữ nghĩa, sau đó sử dụng văn bản được cải tiến đó cho các hoạt động RAG truyền thống trong khi vẫn giữ các hình ảnh gốc có sẵn để phân tích chi tiết khi cần thiết.

Bằng sáng chế rất khó vì chúng có thể bao gồm bất cứ thứ gì từ sơ đồ trừu tượng, công thức hóa học, đến phương trình toán học, vì vậy việc chuẩn bị dữ liệu theo cách mà sau này có thể được sử dụng bởi LLM có xu hướng thực sự phức tạp.

Cách tiếp cận này giải quyết thách thức cốt lõi của việc bảo tồn thông tin trực quan trong khi duy trì hiệu quả và khả năng mở rộng của các hệ thống dựa trên văn bản.

Các trường hợp sử dụng tối ưu:

  • Tài liệu tài chính có biểu đồ và bảng biểu
  • Sách hướng dẫn kỹ thuật có sơ đồ chú thích
  • Bằng sáng chế có các yếu tố hình ảnh phức tạp
  • Tài liệu một trang có bố cục phong phú
  • Tài liệu mà ngữ cảnh hình ảnh là yếu tố quan trọng

Nhận Dạng Ký Tự Vẫn Là Vấn Đề Cơ Bản

Một vấn đề dai dẳng với xử lý tài liệu dựa trên hình ảnh liên quan đến việc phân biệt giữa các ký tự tương tự về mặt trực quan. Trong nhiều phông chữ, các ký tự như 0 và O hoặc l và I xuất hiện giống hệt nhau, khiến việc phân biệt chúng một cách đáng tin cậy trở nên bất khả thi ngay cả đối với con người. Điều này tạo ra những thách thức đặc biệt cho các tài liệu chứa số sê-ri, mã hoặc dữ liệu chữ và số quan trọng khác nơi độ chính xác là thiết yếu.

Trong khi các hệ thống OCR truyền thống đối mặt với những thách thức tương tự, chúng thường bao gồm các cơ chế ngữ cảnh và xác thực bổ sung có thể giúp giải quyết các ký tự mơ hồ.

Kết Luận

Visual Document RAG đại diện cho một tiến bộ thú vị trong công nghệ xử lý tài liệu, đặc biệt đối với các tài liệu có nhiều biểu đồ, sơ đồ và bố cục phức tạp. Tuy nhiên, cuộc thảo luận của cộng đồng cho thấy rằng đây không phải là giải pháp toàn diện. Công nghệ này hoạt động tốt nhất cho các trường hợp sử dụng cụ thể liên quan đến tài liệu một trang hoặc ngắn với nội dung trực quan phong phú, trong khi các phương pháp dựa trên văn bản truyền thống vẫn vượt trội đối với các tài liệu dài hơn, nhiều văn bản. Khi công nghệ trưởng thành, các phương pháp kết hợp tận dụng điểm mạnh của cả hai phương pháp có thể cung cấp con đường thực tế nhất cho các hệ thống sản xuất.

Tham khảo: Don't bother parsing: Just use images for RAG