Nanonets đã phát hành OCR-S , một mô hình ngôn ngữ-thị giác với 3 tỷ tham số được thiết kế để chuyển đổi tài liệu thành định dạng markdown có cấu trúc. Mô hình này hứa hẹn các tính năng tiên tiến như nhận dạng phương trình LaTeX , phát hiện chữ ký và trích xuất bảng phức tạp. Tuy nhiên, việc ra mắt đã gây ra cuộc tranh luận trong cộng đồng nhà phát triển về việc cấp phép và khả năng tiếp cận.
Thông số kỹ thuật của mô hình:
- Kích thước mô hình: 3 tỷ tham số
- Mô hình gốc: Qwen-2.5-VL-3B
- Ngôn ngữ chính: Tiếng Anh (với hỗ trợ hạn chế tiếng Trung và các ngôn ngữ châu Âu)
- Giấy phép: Trọng số mở (không phải mã nguồn mở)
- Khả năng truy cập: Kho mô hình Hugging Face
Sự Nhầm Lẫn Giữa Mã Nguồn Mở và Trọng Số Mở
Cuộc thảo luận gay gắt nhất tập trung vào việc liệu Nanonets-OCR-S có thực sự là mã nguồn mở hay không. Các thành viên cộng đồng nhanh chóng chỉ ra rằng mô hình này dường như có các hạn chế về giấy phép ngăn cản nó được phân loại là phần mềm mã nguồn mở. Tác giả của mô hình đã làm rõ rằng nó nên được coi là trọng số mở thay vì mã nguồn mở, có nghĩa là các trọng số mô hình đã được huấn luyện có sẵn để tải xuống, nhưng mã huấn luyện và quy trình phát triển đầy đủ vẫn là độc quyền.
Sự phân biệt này có ý nghĩa quan trọng đối với các nhà phát triển và tổ chức cần hiểu quyền của họ để sửa đổi, phân phối hoặc sử dụng mô hình cho mục đích thương mại. Các mô hình trọng số mở cung cấp quyền truy cập vào các tham số đã được huấn luyện nhưng vẫn có thể có các hạn chế sử dụng.
Mối Quan Ngại Về Hiệu Suất Đa Ngôn Ngữ
Một số thành viên cộng đồng đã đặt câu hỏi về hiệu suất của mô hình với các tài liệu không phải tiếng Anh. Tác giả thừa nhận rằng mặc dù mô hình chủ yếu được huấn luyện trên văn bản tiếng Anh, dữ liệu huấn luyện bao gồm một lượng nhỏ tiếng Trung và các ngôn ngữ châu Âu. Mô hình cơ sở Qwen-2.5-VL-3B bên dưới có hỗ trợ nhiều ngôn ngữ, điều này có thể giúp ích cho việc xử lý tài liệu quốc tế.
Mô hình chủ yếu được huấn luyện trên các tài liệu tiếng Anh, đó là lý do tại sao tiếng Anh được liệt kê là ngôn ngữ chính. Tuy nhiên, dữ liệu huấn luyện đã bao gồm một tỷ lệ nhỏ hơn của tiếng Trung và các ngôn ngữ châu Âu khác nhau.
Đối với các tổ chức xử lý tài liệu bằng các ngôn ngữ khác ngoài tiếng Anh, hạn chế này có thể ảnh hưởng đáng kể đến tính hữu ích của mô hình trong các ứng dụng thực tế.
Thách Thức Về Điểm Chuẩn và Đánh Giá
Việc thiếu các điểm chuẩn tiêu chuẩn hóa cho việc chuyển đổi tài liệu sang markdown đã khiến việc đánh giá hiệu suất của mô hình một cách khách quan trở nên khó khăn. Tác giả giải thích rằng việc đánh giá chuyển đổi hình ảnh sang markdown đặt ra những thách thức độc đáo vì có thể tồn tại nhiều đầu ra đúng cho cùng một tài liệu đầu vào. Ví dụ, khi xử lý một tài liệu có các khối thông tin song song, các mô hình khác nhau có thể trích xuất nội dung theo các thứ tự khác nhau trong khi cả hai đều đúng về mặt kỹ thuật.
Thách thức đánh giá này làm nổi bật một vấn đề rộng lớn hơn trong lĩnh vực xử lý tài liệu, nơi các chỉ số độ chính xác truyền thống có thể không nắm bắt được các yêu cầu tinh tế của việc chuyển đổi tài liệu có cấu trúc.
Cạnh Tranh và Các Lựa Chọn Thay Thế
Việc phát hành trùng với các mô hình OCR khác đang gia nhập thị trường, bao gồm MonkeyOCR , cũng sử dụng giấy phép Apache 2.0 . Thời điểm này cho thấy sự quan tâm gia tăng đối với các mô hình ngôn ngữ-thị giác nhẹ và chuyên biệt cho các tác vụ xử lý tài liệu. Sự cạnh tranh có thể thúc đẩy cải tiến cả về hiệu suất và sự rõ ràng trong cấp phép trên toàn lĩnh vực.
Các cuộc thảo luận cộng đồng cho thấy rằng mặc dù Nanonets-OCR-S cung cấp các khả năng kỹ thuật ấn tượng, các câu hỏi về cấp phép, hỗ trợ đa ngôn ngữ và đánh giá tiêu chuẩn hóa vẫn là những cân nhắc quan trọng đối với người dùng tiềm năng. Các tổ chức đánh giá mô hình nên xem xét cẩn thận các điều khoản cấp phép và kiểm tra hiệu suất trên các loại tài liệu và ngôn ngữ cụ thể của họ.
Tham khảo: Nanonets-OCR-S