Nghiên cứu tiết lộ khoảng cách lớn về độ chính xác trong xử lý bảng của LLM, gây tranh luận trong cộng đồng về phương pháp kiểm thử

Nhóm Cộng đồng BigGo
Nghiên cứu tiết lộ khoảng cách lớn về độ chính xác trong xử lý bảng của LLM, gây tranh luận trong cộng đồng về phương pháp kiểm thử

Một nghiên cứu gần đây xem xét mức độ hiểu biết của các mô hình ngôn ngữ lớn đối với các định dạng bảng khác nhau đã gây ra cuộc thảo luận sôi nổi trong cộng đồng AI, với các nhà nghiên cứu đặt câu hỏi về cả kết quả và phương pháp kiểm thử được sử dụng.

Phạm vi kiểm thử hạn chế bị chỉ trích nặng nề

Nghiên cứu ban đầu chỉ kiểm thử mô hình GPT-4.1 nano của OpenAI trên 11 định dạng dữ liệu khác nhau, mặc dù tiêu đề tuyên bố đánh giá LLM nói chung. Các thành viên cộng đồng nhanh chóng chỉ ra hạn chế lớn này, với nhiều người cho rằng việc kiểm thử một mô hình duy nhất - và thậm chí không phải là mô hình thường được sử dụng - khiến các kết luận trở nên rất đáng ngờ. Một số nhà nghiên cứu đã tiến hành các bài kiểm tra riêng sử dụng các mô hình mạnh hơn như GPT-5 và Gemini 2.5 Pro, tìm thấy kết quả khác biệt đáng kể với tỷ lệ chính xác gần như hoàn hảo.

Việc lựa chọn GPT-4.1 nano đã bị chỉ trích đặc biệt vì nó được coi là một trong những mô hình yếu hơn hiện có. Khi các thành viên cộng đồng chạy các bài kiểm tra tương tự trên các mô hình tiên tiến, họ phát hiện tỷ lệ chính xác tiến gần 100%, cho thấy các phát hiện ban đầu có thể không phản ánh hiệu suất thực tế với các hệ thống AI hiện tại.

Kết quả Theo dõi Cộng đồng (Các Mô hình Tiên tiến)

Hiệu suất GPT-5:

  • Markdown Key-Value: 100% (100 mẫu)
  • CSV: 100% (100 mẫu)
  • JSON: 100% (100 mẫu)

Trung bình Đa-Mô hình (30 mô hình, 500 hàng):

  • CSV: 84.25%
  • Bảng Markdown: 82.65%
  • YAML: 81.85%
  • JSON Lines: 79.85%
  • Phân tách bằng Pipe: 79.45%
  • JSON: 77.73%
  • Bảng HTML: 75.80%
  • XML: 73.80%
Bài đăng blog này khám phá độ tin cậy của AI trong việc xử lý các định dạng bảng khác nhau, làm nổi bật cuộc thảo luận xung quanh hiệu suất của LLM
Bài đăng blog này khám phá độ tin cậy của AI trong việc xử lý các định dạng bảng khác nhau, làm nổi bật cuộc thảo luận xung quanh hiệu suất của LLM

Hiệu suất kém đáng ngạc nhiên trên tất cả các định dạng

Có lẽ điều nổi bật nhất về kết quả ban đầu là ngay cả định dạng hoạt động tốt nhất - cấu trúc key-value markdown tùy chỉnh - cũng chỉ đạt được 56.7% độ chính xác. Điều này đã khiến nhiều người đặt câu hỏi liệu LLM có nên được sử dụng cho xử lý bảng hay không, xét rằng các phương pháp lập trình truyền thống có thể đạt được độ chính xác hoàn hảo cho các tác vụ như vậy.

Tất cả các định dạng đều được đọc kém đến mức chúng đều thực sự vô dụng.

Nghiên cứu phát hiện rằng các định dạng như CSV và JSON, thường được cho là thân thiện với LLM, hoạt động đặc biệt kém với độ chính xác lần lượt là 44.8% và 52.5%. Tuy nhiên, cộng đồng đã lưu ý rằng những điểm số thấp này có thể phản ánh nhiều hơn về mô hình cụ thể và kích thước tập dữ liệu được chọn thay vì những hạn chế cố hữu của LLM.

Kết quả Nghiên cứu Gốc ( GPT-4.1 nano )

Định dạng Độ chính xác Tokens
Markdown Key-Value 56.7% 52,354
Arrow 55.7% 50,301
XLSX 53.8% 46,359
HTML 52.7% 51,504
JSON 52.5% 66,596
Markdown Table 48.6% 33,541
Natural Language 46.9% 43,871
XML 45.5% 54,691
CSV 44.8% 13,524
Pipe Delimited 41.7% 43,584

Các phương pháp thay thế thu hút sự chú ý

Cuộc thảo luận đã làm nổi bật một số phương pháp thực tế hơn để xử lý bảng với các hệ thống AI. Nhiều chuyên gia thực hành ủng hộ việc sử dụng LLM để tạo code xử lý dữ liệu thay vì yêu cầu chúng phân tích trực tiếp các bảng. Phương pháp này tận dụng khả năng lập trình của các mô hình trong khi tránh những điểm yếu rõ ràng của chúng trong thao tác dữ liệu trực tiếp.

Những người khác đề xuất sử dụng các phương pháp agentic trong đó LLM soạn các truy vấn SQL hoặc sử dụng các công cụ như pandas để phân tích dữ liệu, thay vì cố gắng xử lý nội dung bảng thô. Những phương pháp này có thể đạt được độ chính xác cao hơn nhiều trong khi vẫn hưởng lợi từ khả năng hiểu các truy vấn ngôn ngữ tự nhiên của LLM.

Kích thước tập dữ liệu và chất lượng mô hình quan trọng nhất

Kiểm thử tiếp theo của các thành viên cộng đồng đã tiết lộ rằng cả kích thước tập dữ liệu và khả năng mô hình đều có tác động to lớn đến độ chính xác. Trong khi nghiên cứu ban đầu sử dụng 1,000 bản ghi để cố ý giảm độ chính xác cho mục đích kiểm thử, các tập dữ liệu nhỏ hơn từ 100-500 bản ghi cho thấy hiệu suất tốt hơn nhiều trên tất cả các định dạng.

Quan trọng hơn, các bài kiểm tra với các mô hình tiên tiến như GPT-5 và Gemini 2.5 Flash đã cho thấy độ chính xác gần như hoàn hảo bất kể lựa chọn định dạng. Điều này cho thấy rằng đối với các ứng dụng thực tế, việc chọn một mô hình có khả năng có thể quan trọng hơn việc tối ưu hóa định dạng dữ liệu.

Kết luận

Mặc dù nghiên cứu ban đầu đặt ra những câu hỏi quan trọng về tối ưu hóa định dạng bảng, phản hồi của cộng đồng đã làm nổi bật những hạn chế đáng kể trong phương pháp kiểm thử. Sự khác biệt đáng kể trong kết quả giữa các mô hình cơ bản và tiên tiến cho thấy rằng lựa chọn định dạng có thể trở nên ít quan trọng hơn khi khả năng AI được cải thiện. Đối với các ứng dụng hiện tại, các chuyên gia thực hành được khuyên nên tập trung vào việc sử dụng các mô hình có khả năng và xem xét các phương pháp tạo code thay vì phân tích bảng trực tiếp để đạt độ chính xác quan trọng.

Tham khảo: Which Table Format Do LLMs Understand Best? (Results for 11 Formats)