Một công cụ mã nguồn mở mới có tên llama-scan đã xuất hiện, hứa hẹn chuyển đổi tài liệu PDF thành tệp văn bản bằng cách sử dụng các mô hình AI cục bộ. Công cụ này tận dụng khả năng đa phương thức của Ollama để xử lý tài liệu mà không cần dịch vụ đám mây hoặc chi phí token. Tuy nhiên, phản hồi sớm từ người dùng cho thấy sự tiếp nhận trái chiều với cả kết quả đầy hứa hẹn và những thách thức kỹ thuật đáng kể.
Yêu cầu hệ thống:
- Python 3.10+
- Ollama được cài đặt và chạy cục bộ
- Mô hình mặc định: qwen2.5vl:latest (khoảng 6GB)
Hiệu suất khác biệt đáng kể giữa các loại tài liệu
Thử nghiệm cộng đồng đã tiết lộ sự khác biệt rõ rệt trong hiệu quả của llama-scan tùy thuộc vào độ phức tạp của tài liệu. Trong khi một số người dùng báo cáo chuyển đổi gần như hoàn hảo chỉ với việc bỏ sót ký hiệu nhỏ, những người khác đã gặp phải các vấn đề nghiêm trọng hơn. Một người dùng đã trải qua thất bại hoàn toàn khi xử lý tài liệu có nhiều bảng, chỉ nhận được ! Picture 1: làm đầu ra cho toàn bộ trang. Cùng người dùng này báo cáo công cụ bị treo ở trang 17 của tài liệu 25 trang mà không thể khôi phục.
Cách tiếp cận của công cụ là chuyển đổi các trang PDF thành hình ảnh trước khi xử lý chúng thông qua các mô hình ngôn ngữ thị giác đại diện cho cả điểm mạnh và điểm yếu của nó. Phương pháp này cho phép nó xử lý các bố cục phức tạp và thậm chí cả văn bản viết tay, nhưng nó cũng khiến nó dễ bị tổn thương bởi các vấn đề ảo giác đang gây khó khăn cho các mô hình AI hiện tại.
Các Tùy Chọn Lệnh Chính:
--output, -o
: Thư mục đầu ra (mặc định: "output")--model, -m
: Mô hình Ollama sử dụng (mặc định: "qwen2.5vl:latest")--keep-images, -k
: Giữ lại các tệp hình ảnh trung gian--width, -w
: Chiều rộng của hình ảnh được thay đổi kích thước (0 để bỏ qua việc thay đổi kích thước)--start, -s
: Số trang bắt đầu--end, -e
: Số trang kết thúc
Nhận dạng chữ viết tay cho thấy tiềm năng bất ngờ
Bất chấp những lo ngại về độ tin cậy chuyển đổi văn bản cơ bản, llama-scan đã thể hiện khả năng đáng ngạc nhiên với các tài liệu viết tay. Công cụ đã xử lý thành công các nhật ký và ghi chú viết tay, mở ra khả năng số hóa các kho lưu trữ cá nhân và tài liệu lịch sử. Khả năng này xuất phát từ việc sử dụng Qwen 2.5 VL , một mô hình thị giác được đào tạo đặc biệt để nhận dạng văn bản viết tay.
Thời gian xử lý cho các tài liệu viết tay có thể đáng kể, với người dùng báo cáo 5-10 phút mỗi tài liệu trên phần cứng laptop thông thường. Tuy nhiên, đối với những người muốn tránh dịch vụ đám mây cho các tài liệu cá nhân nhạy cảm về quyền riêng tư, cách tiếp cận xử lý cục bộ này cung cấp một lựa chọn thay thế có giá trị.
Hạn chế kỹ thuật và giải pháp thay thế
Cuộc thảo luận cộng đồng đã làm nổi bật những thách thức cơ bản với việc xử lý PDF mở rộng ra ngoài chính llama-scan . Tài liệu PDF có thể chứa hình ảnh nhúng, bố cục phức tạp và các sơ đồ mã hóa khác nhau khiến việc trích xuất văn bản đáng tin cậy trở nên khó khăn nổi tiếng. Các giải pháp OCR truyền thống như Tesseract và ocrmypdf tiếp tục cung cấp kết quả dự đoán được hơn cho các tài liệu văn bản tiêu chuẩn.
Tất cả phụ thuộc vào quy mô bạn cần, với API thì dễ dàng tạo ra hàng triệu token mà không cần suy nghĩ.
Một số người dùng đã chỉ ra các lựa chọn thay thế đã được thiết lập bao gồm Docling từ IBM , Marker với Surya OCR , và các công cụ chuyên biệt như mô hình nanonets-ocr-s . Những giải pháp này thường cung cấp khả năng xử lý mạnh mẽ hơn cho bảng và bố cục phức tạp, mặc dù chúng có thể thiếu những ưu điểm xử lý cục bộ mà llama-scan cung cấp.
Sự phụ thuộc của công cụ vào PyMuPDF , mang giấy phép AGPL, cũng đặt ra những cân nhắc cho các trường hợp sử dụng thương mại. Người dùng có kế hoạch tích hợp llama-scan vào phần mềm độc quyền sẽ cần xem xét cẩn thận các tác động về giấy phép.
Trong khi llama-scan đại diện cho một cách tiếp cận thú vị đối với việc xử lý PDF cục bộ, trải nghiệm người dùng hiện tại cho thấy nó hoạt động tốt nhất như một công cụ chuyên biệt cho các trường hợp sử dụng cụ thể thay vì một bộ chuyển đổi PDF đa năng. Bản chất mã nguồn mở của dự án có nghĩa là những vấn đề này có thể được giải quyết thông qua đóng góp cộng đồng, nhưng người dùng tiềm năng nên thử nghiệm kỹ lưỡng với các loại tài liệu cụ thể của họ trước khi dựa vào nó cho các quy trình làm việc quan trọng.
Tham khảo: llama-scan