LLM Cho Thấy Hiệu Suất Kém Trong Bài Kiểm Tra Nhận Diện Font Chữ, Đặt Ra Câu Hỏi Về Khả Năng Của Mô Hình

Nhóm Cộng đồng BigGo
LLM Cho Thấy Hiệu Suất Kém Trong Bài Kiểm Tra Nhận Diện Font Chữ, Đặt Ra Câu Hỏi Về Khả Năng Của Mô Hình

Một bài kiểm tra trực tiếp mới về khả năng nhận diện font chữ từ hình ảnh của các mô hình ngôn ngữ lớn đã cho thấy hiệu suất kém đáng ngạc nhiên, gây ra những cuộc thảo luận về khả năng thực sự của các hệ thống AI hiện tại. Bài kiểm tra này, sử dụng các yêu cầu nhận diện font chữ thực tế từ diễn đàn cộng đồng dafont.com, cho thấy rằng ngay cả các LLM hiện đại cũng gặp khó khăn với nhiệm vụ thị giác tưởng chừng đơn giản này.

Phương pháp kiểm tra giải quyết một vấn đề quan trọng trong đánh giá AI: nhiễm benchmark. Bằng cách chỉ kiểm tra những font chữ chưa được cộng đồng nhận diện và so sánh kết quả khi các chuyên gia con người đưa ra câu trả lời, bài kiểm tra đảm bảo các mô hình làm việc với những hình ảnh thực sự chưa từng thấy. Cách tiếp cận này ngăn chặn vấn đề thường gặp là LLM có vẻ có khả năng nhân tạo do ghi nhớ dữ liệu huấn luyện.

Phương pháp đánh giá:

  • Lấy nguồn từ các yêu cầu nhận dạng font từ diễn đàn dafont.com
  • Chỉ kiểm tra những font chưa được cộng đồng xác định
  • So sánh dự đoán của LLM với câu trả lời của các chuyên gia cộng đồng
  • Ngăn chặn việc làm nhiễu benchmark thông qua đánh giá trực tiếp
  • Cung cấp hình ảnh, tiêu đề chủ đề và mô tả làm ngữ cảnh
Khám phá khả năng của các mô hình ngôn ngữ lớn trong việc nhận dạng phông chữ
Khám phá khả năng của các mô hình ngôn ngữ lớn trong việc nhận dạng phông chữ

Lựa Chọn Mô Hình Gây Ra Tranh Luận Về Tiêu Chuẩn Kiểm Tra

Bài kiểm tra đã thử nghiệm hai mô hình: GPT-4o-mini và Gemini-2.5-flash-preview, cả hai đều được coi là các lựa chọn tầm trung thay vì các mô hình hàng đầu. Các cuộc thảo luận trong cộng đồng đã đặt câu hỏi liệu những lựa chọn này có cung cấp đánh giá công bằng về khả năng AI hiện tại hay không. Các nhà phê bình cho rằng việc kiểm tra các mô hình tiên tiến, đắt tiền hơn sẽ mang lại kết quả có ý nghĩa hơn, mặc dù những người khác chỉ ra rằng các cân nhắc về chi phí có thể đã ảnh hưởng đến việc lựa chọn cho một đánh giá đang diễn ra.

Thiết lập kiểm tra cho phép mỗi mô hình có tối đa năm lần đoán cho mỗi font chữ, với hiệu suất được đo bằng các chỉ số độ chính xác top-k. Cách tiếp cận này thừa nhận rằng việc nhận diện font chữ thường liên quan đến nhiều ứng cử viên hợp lý, đặc biệt là với số lượng font chữ tương tự có sẵn trên các nền tảng miễn phí.

Các mô hình được kiểm tra:

  • GPT-4o-mini
  • Gemini-2.5-flash-preview-05-20

Thông số kiểm tra:

  • Cho phép tối đa 5 lần đoán cho mỗi phông chữ
  • Hiệu suất được đo lường bằng độ chính xác top-k
  • Đánh giá trực tiếp sử dụng chỉ những hình ảnh chưa được nhìn thấy
Đánh giá các mô hình AI với những thách thức nhận diện phông chữ cụ thể
Đánh giá các mô hình AI với những thách thức nhận diện phông chữ cụ thể

Hạn Chế Kỹ Thuật và Thách Thức Thực Tế

Một số yếu tố có thể góp phần vào hiệu suất kém ngoài các hạn chế của mô hình. Việc nhận diện font chữ trong quảng cáo và thiết kế thường liên quan đến các sửa đổi tùy chỉnh đối với các font chữ hiện có, khiến việc khớp chính xác trở nên bất khả thi. Các nhà thiết kế thường bắt đầu với các font chữ cơ bản và áp dụng các điều chỉnh như thay đổi khoảng cách, chồng chéo ký tự, hoặc sửa đổi hình dạng chữ cái để đạt được hiệu ứng thị giác cụ thể.

Phương pháp benchmark cũng đặt ra câu hỏi về tính đầy đủ của đánh giá. Các thành viên cộng đồng lưu ý rằng các chi tiết kỹ thuật quan trọng đã bị thiếu, chẳng hạn như liệu khả năng tìm kiếm web hoặc các tính năng lý luận nâng cao có được kích hoạt trong quá trình kiểm tra hay không. Những công cụ này có thể giúp các mô hình nghiên cứu và nhận diện font chữ hiệu quả hơn.

Những thách thức thực tế trong nhận dạng phông chữ, được minh họa qua thiết kế sản phẩm
Những thách thức thực tế trong nhận dạng phông chữ, được minh họa qua thiết kế sản phẩm

Tác Động Đối Với Đánh Giá AI

Kết quả này nhấn mạnh một thực tế quan trọng về khả năng AI. Trong khi LLM xuất sắc trong nhiều nhiệm vụ dựa trên văn bản, bài kiểm tra này tiết lộ những hạn chế rõ ràng trong các nhiệm vụ nhận dạng thị giác chuyên biệt. Hiệu suất kém này đóng vai trò như một lời nhắc nhở rằng các hệ thống AI hiện tại, bất chấp những thành tựu ấn tượng trong các lĩnh vực khác, vẫn có những khoảng trống đáng kể trong một số ứng dụng thực tế.

Tôi hạnh phúc theo một cách kỳ lạ khi tìm được một nhiệm vụ phân loại mà LLM không giỏi (chưa?). Tôi nghĩ đây là một lời nhắc nhở tốt rằng LLM không phải là phép màu, và chúng vẫn còn một chặng đường dài trước khi có thể giải quyết tất cả các nhiệm vụ.

Thách thức nhận diện font chữ cũng chứng minh giá trị của các cách tiếp cận benchmark trực tiếp ngăn chặn nhiễm dữ liệu. Khi các hệ thống AI trở nên có khả năng hơn và các bộ dữ liệu huấn luyện phát triển lớn hơn, việc đảm bảo đánh giá công bằng trở nên ngày càng quan trọng để hiểu khả năng mô hình thực sự so với hiệu ứng ghi nhớ.

Tính chất liên tục của bài kiểm tra này có nghĩa là kết quả sẽ tiếp tục phát triển khi có thêm dữ liệu và có thể các mô hình tiên tiến hơn được kiểm tra. Hiện tại, nó đứng như một ví dụ thú vị về một lĩnh vực mà chuyên môn con người vẫn vượt trội đáng kể so với trí tuệ nhân tạo.

Tham khảo: Do LLMs identify fonts?