Các phương pháp Computer Vision vượt trội hơn phân tích PDF truyền thống do tính hỗn loạn vốn có của định dạng này

Nhóm Cộng đồng BigGo
Các phương pháp Computer Vision vượt trội hơn phân tích PDF truyền thống do tính hỗn loạn vốn có của định dạng này

Định dạng PDF đã trở thành một thách thức khét tiếng đối với các nhà phát triển, khi các phương pháp phân tích truyền thống gặp khó khăn với các tệp thực tế không tuân theo đặc tả kỹ thuật. Một phân tích gần đây về gần 4.000 tệp PDF từ Common Crawl cho thấy tỷ lệ lỗi 0,5% do định dạng không tuân thủ tiêu chuẩn, khiến nhiều công ty từ bỏ phương pháp phân tích truyền thống để chuyển sang các phương pháp computer vision.

Thống kê lỗi phân tích PDF:

  • Kích thước mẫu: 3.977 tệp PDF từ Common Crawl
  • Tệp có khai báo xref lỗi: 23 tệp
  • Tỷ lệ lỗi tổng thể: ~0,5%
  • Vấn đề phổ biến nhất: Điểm bắt đầu nội dung PDF khác không (50% lỗi)
  • Các vấn đề khác: Con trỏ ở giữa bảng xref, con trỏ gần xref, offset đối tượng không chính xác

Sự trỗi dậy của xử lý PDF dựa trên thị giác

Các công ty xử lý tài liệu hiện đại ngày càng chuyển sang các giải pháp computer vision chuyển đổi PDF thành hình ảnh trước khi xử lý. Phương pháp này bao gồm việc hiển thị các trang PDF dưới dạng hình ảnh, sau đó áp dụng các mô hình hiểu biết bố cục và thuật toán nhận dạng văn bản chuyên biệt để trích xuất nội dung. Mặc dù phương pháp này có vẻ phản trực quan - về cơ bản là in và quét một tài liệu kỹ thuật số - nhưng nó đã chứng minh độ tin cậy cao hơn so với việc cố gắng phân tích trực tiếp cấu trúc bên trong PDF.

Sự chuyển đổi này đại diện cho một thay đổi cơ bản trong cách các nhà phát triển tiếp cận xử lý tài liệu. Thay vì đấu tranh với các bảng tham chiếu chéo bị hỏng và luồng đối tượng dị dạng, các hệ thống dựa trên thị giác hoàn toàn tránh được những vấn đề này bằng cách làm việc với biểu diễn trực quan mà người dùng thực sự nhìn thấy.

Thị giác máy tính so với các phương pháp phân tích cú pháp truyền thống:

Phương pháp Ưu điểm Nhược điểm
Phân tích cú pháp truyền thống Xử lý nhanh hơn, truy cập được metadata, bảo toàn dữ liệu vô hình Thất bại với các tệp bị lỗi định dạng, yêu cầu logic dự phòng phức tạp
Thị giác máy tính Xử lý được các tệp không tuân thủ chuẩn, hoạt động với tài liệu được quét, kết quả nhất quán Xử lý chậm hơn, mất dữ liệu vô hình, yêu cầu nhiều tài nguyên tính toán hơn

Tại sao phân tích PDF truyền thống thất bại trong thực tế

Các tệp PDF trong thực tế hiếm khi tuân theo đặc tả chính thức. Các vấn đề phổ biến bao gồm con trỏ tham chiếu chéo không chính xác, bảng đối tượng dị dạng và các tệp có dữ liệu rác được thêm vào đầu. Những vấn đề này xuất phát từ cấu trúc phức tạp của định dạng, kết hợp cả các yếu tố nhị phân và văn bản theo những cách khiến nó dễ bị hỏng trong quá trình truyền và chỉnh sửa tệp.

Tính năng lưu tăng dần của định dạng, được sử dụng khi tài liệu được chỉnh sửa nhiều lần, tạo ra các chuỗi bảng tham chiếu chéo thường chứa các liên kết bị hỏng. Ngay cả các trình xem PDF lớn như Adobe Reader và PDF.js cũng bao gồm các cơ chế dự phòng quét toàn bộ tệp để tái tạo bảng đối tượng khi các con trỏ chính thức bị lỗi.

PDF không phải là một đặc tả kỹ thuật, nó là một cấu trúc xã hội, nó là một cảm giác. Bạn càng đấu tranh thì càng chìm sâu hơn.

Các Vi Phạm Định Dạng PDF Phổ Biến:

  • Thiếu ngắt dòng sau dấu hiệu xref
  • Viết sai chính tả startxref thành startref
  • Số lượng mục đối tượng nhiều hơn so với khai báo trong tiêu đề phần con
  • Dữ liệu rác trong bảng tham chiếu chéo
  • Giá trị con trỏ /Prev không chính xác (bao gồm giá trị mặc định là 0)
  • Dữ liệu rác trước tiêu đề phiên bản PDF gây ra sự dịch chuyển offset

Các thách thức kỹ thuật thúc đẩy sự đổi mới

Độ phức tạp vượt ra ngoài các lỗi phân tích đơn giản. Các tệp PDF có thể định vị từng ký tự riêng lẻ thay vì theo chuỗi, sử dụng mã hóa ký tự không chuẩn và nhúng phông chữ với các ký tự bị loại bỏ khiến việc trích xuất văn bản gần như không thể. Đặc biệt, phông chữ Type 3 có thể khiến việc trích xuất văn bản hoàn toàn không đáng tin cậy khi sử dụng các phương pháp truyền thống.

Những trở ngại kỹ thuật này đã dẫn đến việc phát triển các mô hình ngôn ngữ đa phương thức có thể xử lý trực tiếp hình ảnh tài liệu. Các mô hình AI hiện tại từ OpenAI , Anthropic và Google hiện xử lý chuyển đổi PDF sang hình ảnh nội bộ, cung cấp kết quả chính xác hơn so với các hệ thống nhận dạng ký tự quang học cổ điển.

Phản ứng của ngành và tác động tương lai

Ngành xử lý tài liệu đã phần lớn chấp nhận sự chuyển đổi mô hình này. Các công ty xây dựng API phân tích báo cáo rằng các phương pháp computer vision mang lại kết quả vượt trội so với trích xuất dựa trên metadata, đặc biệt đối với các tài liệu có bố cục phức tạp như bảng, biểu mẫu và văn bản nhiều cột.

Xu hướng này làm nổi bật một nguyên tắc rộng lớn hơn trong phát triển phần mềm: đôi khi giải pháp thanh lịch nhất về mặt kỹ thuật không phải là giải pháp thực tế nhất. Mặc dù việc phân tích cấu trúc bên trong PDF về mặt lý thuyết nên hiệu quả hơn so với việc hiển thị và phân tích lại hình ảnh, nhưng sự không nhất quán trong thế giới thực của định dạng khiến phương pháp dựa trên thị giác đáng tin cậy hơn cho các hệ thống sản xuất.

Sự thành công của các phương pháp computer vision trong xử lý PDF có thể báo hiệu nhu cầu về các định dạng tài liệu thế hệ tiếp theo ưu tiên cả khả năng đọc của con người và khả năng phân tích của máy. Cho đến lúc đó, các nhà phát triển tiếp tục giải quyết các hạn chế của PDF bằng cách sử dụng các giải pháp thay thế ngày càng tinh vi, coi định dạng này giống như một phương tiện trực quan hơn là dữ liệu có cấu trúc.

Tham khảo: So you want to parse a PDF?