Cộng đồng trí tuệ nhân tạo đang vật lộn với một vấn đề cơ bản trong việc đánh giá mô hình: ngay khi các benchmark trở thành công khai, chúng có khả năng sẽ xuất hiện trong các bộ dữ liệu huấn luyện, khiến chúng trở thành những thước đo không đáng tin cậy về khả năng thực sự của AI.
Vấn đề ô nhiễm này đã gây ra cuộc tranh luận gay gắt trong số các nhà phát triển và nghiên cứu, những người dựa vào benchmark để đo lường tiến bộ trong các hệ thống AI. Thách thức này vượt xa việc chỉ đơn giản là điểm số kiểm tra mà còn đến câu hỏi cốt lõi về cách chúng ta có thể đánh giá một cách có ý nghĩa liệu các mô hình AI có thực sự đang cải thiện hay chỉ đang trở nên giỏi hơn trong việc lách luật các bài kiểm tra cụ thể.
Vấn đề ô nhiễm Benchmark
Cộng đồng đã xác định một lỗ hổng nghiêm trọng trong các phương pháp đánh giá hiện tại. Các benchmark công khai, một khi được phát hành, sẽ trở thành một phần của các bộ dữ liệu khổng lồ được sử dụng để huấn luyện các mô hình AI mới. Điều này tạo ra một vấn đề tuần hoàn khi các mô hình có vẻ hoạt động tốt hơn không phải vì chúng có khả năng cao hơn, mà vì về cơ bản chúng đã từng thấy các câu hỏi kiểm tra trước đó.
Vấn đề này ảnh hưởng đến mọi thứ từ các bài kiểm tra kiến thức cơ bản như MMLU đến các benchmark suy luận phức tạp. Ngay cả các đánh giá mới hơn, được cho là khó hơn cũng nhanh chóng đạt đến điều mà các nhà nghiên cứu gọi là độ bão hòa - điểm mà các mô hình hàng đầu đạt được điểm số gần như hoàn hảo, khiến việc phân biệt giữa các hệ thống thực sự vượt trội trở nên bất khả thi.
Các Danh Mục Benchmark Chính và Ví Dụ:
- Kiến thức: MMLU-Pro , QAPGA , các biến thể HumanEval
- Toán học: GSM8K , MATH-500 , AIME , Math-Arena
- Lập trình: LiveCodeBench , SweBench , AiderBench
- Ngữ cảnh dài: NIAH ( Needle in Haystack ), Ruler , InfinityBench
- Gọi công cụ: ToolBench , MCBench , MCP-Universe
- Nhiệm vụ trợ lý: QA4IA , BrowseComps , SciCode
- Dựa trên trò chơi: ARC-AGI , Town of Salem , TextQuests
Hiệu suất thực tế so với điểm số Benchmark
Ngày càng nhiều chuyên gia cho rằng các benchmark tiêu chuẩn hóa hoàn toàn bỏ lỡ vấn đề cốt lõi. Trọng tâm nên là xây dựng các hệ thống hoạt động tốt cho người dùng thực tế, chứ không phải đạt điểm cao trong các bài kiểm tra trừu tượng.
Hiệu suất thực tế phụ thuộc vào cách hệ thống được xây dựng, quan trọng hơn nhiều so với LLM cơ bản. Đánh giá hệ thống bạn xây dựng trên các đầu vào liên quan là quan trọng nhất.
Quan điểm này nêu bật sự ngắt kết nối giữa hiệu suất trong phòng thí nghiệm và tính hữu dụng thực tế. Một mô hình có thể xuất sắc trong các bài kiểm tra suy luận toán học nhưng lại thất bại khi suy luận đó cần được kết hợp với việc sử dụng công cụ và hiểu biết ngữ cảnh dài trong các ứng dụng thực tế.
Yếu tố chi phí trong đánh giá
Một khía cạnh thường bị bỏ qua của việc đánh giá AI là hiệu quả chi phí. Hiệu suất mô hình có thể thay đổi đáng kể khi các ràng buộc về ngân sách được xem xét. Một mô hình có khả năng kém hơn một chút nhưng chi phí vận hành thấp hơn đáng kể có thể là lựa chọn tốt hơn cho nhiều ứng dụng, nhưng các benchmark truyền thống không nắm bắt được sự đánh đổi này.
Một số nhà phát triển hiện đang xây dựng các công cụ kết hợp các chỉ số chi phí và độ trễ cùng với điểm số độ chính xác, cung cấp một bức tranh hoàn chỉnh hơn về tính hữu dụng của mô hình trong môi trường sản xuất.
Khung Đánh Giá Được Khuyến Nghị (2025):
- Khả Năng Cốt Lõi: MMLU , Math-Arena , LiveCodeBench , MCP-Universe
- Hiệu Suất Thực Tế: QA4IA , DABStep , SciCode , các đánh giá chuyên biệt theo lĩnh vực
- Kiểm Tra Khả Năng Thích Ứng: ARC-AGI , TextQuests , Town of Salem
- Cân Nhắc Chi Phí: Bao gồm các ràng buộc về ngân sách và chỉ số độ trễ trong tất cả các đánh giá
Hướng tới kiểm tra riêng tư và động
Giải pháp đang nổi lên từ cộng đồng bao gồm việc chuyển hướng sang các đánh giá riêng tư, cụ thể theo lĩnh vực mà không thể bị lách luật thông qua việc đưa vào dữ liệu huấn luyện. Một số tổ chức đang phát triển các benchmark nội bộ dựa trên các trường hợp sử dụng cụ thể của họ, trong khi những tổ chức khác đang khám phá các môi trường kiểm tra động có thể thích ứng và tạo bất ngờ cho các mô hình theo thời gian thực.
Các đánh giá dựa trên trò chơi và các nhiệm vụ dự báo đại diện cho những hướng đi đầy hứa hẹn, vì chúng liên quan đến các tình huống vốn khó dự đoán hoặc ô nhiễm. Những phương pháp này kiểm tra không chỉ việc nhớ lại kiến thức mà còn khả năng suy luận và thích ứng thực sự.
Khủng hoảng đánh giá phản ánh sự trưởng thành rộng lớn hơn trong lĩnh vực AI. Khi các mô hình trở nên có khả năng hơn, các phương pháp đo lường khả năng đó phải phát triển vượt ra ngoài điểm số benchmark đơn giản hướng tới các đánh giá tinh tế hơn, thực tế hơn về tính hữu dụng trong thế giới thực.
Tham khảo: Evals in 2025: going beyond simple benchmarks to build models people can actually use