Trong thế giới đang phát triển nhanh chóng của trí tuệ nhân tạo, một phương pháp tiếp cận mới đối với nhận dạng ký tự quang học (OCR) đang tạo ra cuộc thảo luận đáng kể trong giới nhà phát triển và nhà nghiên cứu. DeepSeek-OCR, vừa được công ty AI Trung Quốc DeepSeek phát hành, giới thiệu một khái niệm thú vị: coi nhận dạng văn bản như một vấn đề nén dữ liệu nơi các token thị giác có thể đại diện cho thông tin nhiều hơn đáng kể so với các token văn bản truyền thống. Góc nhìn đổi mới này đã khơi mào các cuộc trò chuyện về bản chất cơ bản của cách các mô hình ngôn ngữ lớn xử lý thông tin hình ảnh và văn bản.
Đột Phá Nén Dữ Liệu Đang Thu Hút Sự Chú Ý
Khía cạnh được thảo luận nhiều nhất của DeepSeek-OCR trong các diễn đàn kỹ thuật không chỉ là khả năng OCR, mà còn là cách tiếp cận mới mẻ của nó trong việc biểu diễn thông tin. Mô hình này đạt được thứ mà các nhà nghiên cứu gọi là nén OCR gần như không mất mát với tỷ lệ xấp xỉ 10×, nghĩa là một token thị giác có thể đại diện hiệu quả cho nội dung của khoảng mười token văn bản. Tỷ lệ nén này đại diện cho một bước đột phá tiềm năng về mức độ hiệu quả mà các hệ thống AI có thể xử lý thông tin văn bản từ hình ảnh.
Cộng đồng đang tích cực tranh luận về lý do tại sao kỹ thuật nén này hoạt động hiệu quả như vậy. Một số chuyên gia cho rằng các token thị giác, vốn là các vector có giá trị liên tục trong không gian ngữ nghĩa, vốn dĩ mang nhiều thông tin hơn các token văn bản rời rạc. Như một bình luận viên đã nhận xét một cách sâu sắc, Các token thị giác là một phương tiện nén tốt bởi vì với một token thị giác, bạn có một vector gồm N phần tử, nhưng với các token văn bản, bạn có M vector gồm N phần tử. Sự khác biệt cơ bản này trong cách biểu diễn cho phép mô hình nén ý nghĩa của nhiều từ vào các token thị giác đơn lẻ, có khả năng làm giảm yêu cầu tính toán để xử lý các tài liệu dài.
Hiệu suất nén
- Nén gần như không mất dữ liệu ở tỷ lệ ~10×
- Nén 20× vẫn giữ được 60% độ chính xác
- Các token hình ảnh biểu diễn nhiều token văn bản một cách hiệu quả
Ứng Dụng Thực Tế và Hiệu Suất Trong Thế Giới Thực
Ngoài những lợi thế nén lý thuyết, các nhà phát triển đang khám phá cách DeepSeek-OCR hoạt động trong các kịch bản thực tế. Mô hình này hỗ trợ nhiều chế độ độ phân giải từ Tiny (512x512) đến Large (1280x1280) và thậm chí là chế độ Gundam động kết hợp các độ phân giải khác nhau để có hiệu suất tối ưu. Những người dùng sớm đã thử nghiệm mô hình trên nhiều loại tài liệu khác nhau, từ trích xuất văn bản đơn giản đến chuyển đổi bảng biểu phức tạp và tạo mã markdown.
Thảo luận trong cộng đồng cho thấy kết quả hỗn hợp nhưng nhìn chung là tích cực so với các giải pháp hiện có. Trong khi một số người dùng báo cáo rằng bất kỳ mô hình thị giác nào cũng tốt hơn phần mềm OCR thương mại, những người khác lưu ý rằng các bố cục phức tạp vẫn là thách thức. Một người dùng chia sẻ trải nghiệm của họ với việc trích xuất bảng: Các bảng có nhiều tiêu đề và ô được gộp lại bị lẫn lộn, nhiều cột với các ô đánh dấu bị trộn lẫn, các bảng nhiều trang không được hiểu đúng. Điều này cho thấy rằng trong khi DeepSeek-OCR đại diện cho một bước tiến đáng kể, vẫn còn chỗ để cải thiện trong việc xử lý các cấu trúc tài liệu phức tạp.
Các Chế Độ Hiệu Suất của DeepSeek-OCR
- Tiny: độ phân giải 512x512 (64 vision tokens)
- Small: độ phân giải 640x640 (100 vision tokens)
- Base: độ phân giải 1024x1024 (256 vision tokens)
- Large: độ phân giải 1280x1280 (400 vision tokens)
- Gundam: độ phân giải động kết hợp nx640x640 + 1x1024x1024
![]() |
|---|
| Hình ảnh này minh họa các giai đoạn xử lý của một tài liệu có chứa nội dung toán học, làm nổi bật quá trình chuyển đổi từ bố cục phức tạp sang định dạng đã được xử lý, liên quan đến hiệu suất thực tế của DeepSeek-OCR |
Lợi Thế Mã Nguồn Mở và Khả Năng Đa Ngôn Ngữ
Một yếu tố chính thúc đẩy sự phấn khích trong cộng đồng là giấy phép MIT của DeepSeek-OCR, giúp nó có sẵn miễn phí cho cả mục đích thương mại và nghiên cứu. Cách tiếp cận mở này tương phản với một số giải pháp OCR độc quyền và phù hợp với lịch sử phát hành các mô hình AI mã nguồn mở của DeepSeek. Hỗ trợ đa ngôn ngữ cho gần 100 ngôn ngữ, mặc dù không được nhấn mạnh nhiều trong tài liệu ban đầu, đại diện cho một lợi thế quan trọng khác cho các ứng dụng toàn cầu.
Các nhà phát triển đặc biệt quan tâm đến việc mô hình có thể hoạt động như thế nào trên các chữ viết không phải Latinh, với một bình luận viên tự hỏi liệu văn bản viết bằng chữ Hán có tương thích hơn với kiểu nén tập trung vào thị giác như vậy so với văn bản Latinh không. Câu hỏi này chạm đến một khía cạnh quan trọng của công nghệ - liệu một số hệ thống chữ viết có thể hưởng lợi nhiều hơn từ cách tiếp cận token thị giác so với những hệ thống khác hay không, có khả năng là do nội dung thông tin dày đặc hơn trong các hệ thống chữ viết dựa trên ký tự.
Tính năng chính
- Hỗ trợ đa ngôn ngữ cho gần 100 ngôn ngữ
- Giấy phép MIT (thân thiện với mục đích thương mại)
- Hỗ trợ xử lý tài liệu phức tạp bao gồm bảng biểu và chuyển đổi markdown
- Trọng số và kiến trúc mã nguồn mở
Tương Lai Của OCR và Những Thách Thức Còn Lại
Khi cuộc thảo luận tiếp tục, một số chủ đề nổi lên về hướng đi của công nghệ OCR và những thách thức nào vẫn còn tồn tại. Trong khi một số thành viên cộng đồng cảm thấy rằng OCR về cơ bản đã được giải quyết, những người khác chỉ ra các lĩnh vực cụ thể nơi các mô hình hiện tại vẫn còn gặp khó khăn. Nhận dạng văn bản viết tay (HTR) vẫn đặc biệt thách thức, với một người dùng lưu ý rằng LLM sẽ ghi lại bản ghi mà không có vấn đề gì, đầu ra có vẻ hoàn toàn chính xác... Chỉ có điều văn bản được phiên âm không liên quan gì đến bản ghi cụ thể của tôi.
Cuộc trò chuyện cũng chạm đến những hàm ý rộng hơn của việc nén token thị giác đối với sự phát triển AI. Nếu các token thị giác thực sự có thể biểu diễn văn bản hiệu quả hơn, điều này có thể ảnh hưởng đến cách các mô hình đa phương thức trong tương lai được kiến trúc, có khả năng dẫn đến các hệ thống hiệu quả hơn về mặt tính toán để xử lý tài liệu hình ảnh. Tuy nhiên, những lo ngại về ảo giác và độ chính xác trong các ứng dụng quan trọng như tài liệu pháp lý hoặc hồ sơ y tế cho thấy rằng việc xác minh của con người vẫn sẽ cần thiết trong tương lai gần.
「Bài báo thú vị hơn là chỉ một VLM khác cho OCR, họ bắt đầu nói về nén và những thứ khác.」
Việc phát hành DeepSeek-OCR đại diện cho nhiều hơn là một công cụ OCR khác - nó giới thiệu một cách suy nghĩ mới về cách thông tin hình ảnh và văn bản có thể được nén và xử lý bởi các hệ thống AI. Mặc dù các thách thức thực tế vẫn còn, đặc biệt là với các bố cục phức tạp và văn bản viết tay, cách tiếp cận nén token thị giác mở ra những khả năng thú vị cho việc xử lý tài liệu hiệu quả hơn. Khi các nhà phát triển tiếp tục thử nghiệm và xây dựng dựa trên công nghệ mã nguồn mở này, chúng ta có khả năng sẽ chứng kiến thêm nhiều đổi mới trong cách AI hiểu và xử lý nội dung văn bản bên trong hình ảnh.
Tham khảo: DeepSeek-OCR: Contexts Optical Compression

