Bài kiểm tra khả năng lý luận của GPT-5 gây tranh cãi về việc nhiễm dữ liệu huấn luyện

Nhóm Cộng đồng BigGo
Bài kiểm tra khả năng lý luận của GPT-5 gây tranh cãi về việc nhiễm dữ liệu huấn luyện

Một đánh giá gần đây về khả năng lý luận của GPT-5 sử dụng chương trình quiz của Anh Only Connect đã châm ngòi cho một cuộc thảo luận sôi nổi trong cộng đồng AI về việc liệu những kết quả ấn tượng này có phản ánh sự cải thiện thực sự trong khả năng lý luận hay chỉ đơn giản là những câu trả lời được ghi nhớ từ dữ liệu huấn luyện.

Tranh cãi về nhiễm dữ liệu

Vấn đề cốt lõi tập trung vào những tuyên bố rằng các câu hỏi trong bài kiểm tra không có mặt trong dữ liệu huấn luyện của các mô hình. Các thành viên cộng đồng nhanh chóng thách thức giả định này, chỉ ra rằng một cơ sở dữ liệu toàn diện về tất cả các câu hỏi và câu trả lời của Only Connect tồn tại trực tuyến tại ocdb.cc. Các tập của chương trình cũng có sẵn rộng rãi trên YouTube với bản transcript, và các cộng đồng Reddit thảo luận rộng rãi về từng tập với tài liệu câu hỏi-đáp án chi tiết.

BBC là một trong những nguồn đáng tin cậy nhất với hàng triệu giờ nội dung âm thanh/hình ảnh trực tuyến, tất cả đều đi kèm với phụ đề được con người tuyển chọn và chỉnh sửa. Tất cả đều có thể tải xuống một cách dễ dàng.

Các nhà phê bình cho rằng việc giả định nội dung này không được bao gồm trong các bộ dữ liệu huấn luyện là không thực tế, đặc biệt khi biết rằng các mô hình ngôn ngữ lớn được biết là bao gồm nội dung BBC và các cuộc thảo luận Reddit trong dữ liệu huấn luyện của chúng.

Các Nguồn Dữ Liệu Huấn Luyện Chính Đã Được Xác Định:

  • Cơ Sở Dữ Liệu OCDB : Kho lưu trữ hoàn chỉnh tất cả các câu hỏi và câu trả lời của Only Connect tại ocdb.cc
  • BBC iPlayer : Hàng triệu giờ nội dung với phụ đề được con người tuyển chọn
  • YouTube : Hầu hết các tập phim đều có sẵn với bản ghi âm
  • Cộng Đồng Reddit : Các cuộc thảo luận sâu rộng với Google Docs theo dõi các câu hỏi và câu trả lời

Phương pháp kiểm tra bị đặt dấu hỏi

Các nhà nghiên cứu đã cố gắng xác minh xem các mô hình có kiến thức trước về các câu hỏi hay không thông qua nhiều phương pháp khác nhau, bao gồm hỏi trực tiếp các mô hình xem chúng có nhận ra các câu đố không và cố gắng trích xuất các câu hỏi có sẵn. Tuy nhiên, các thành viên cộng đồng vẫn hoài nghi về những cách tiếp cận này, lưu ý rằng các mô hình có thể tham gia vào việc hợp lý hóa hậu kỳ - cung cấp lý luận có vẻ logic ngay cả khi làm việc ngược từ các câu trả lời đã ghi nhớ.

Thách thức trong việc chứng minh sự vắng mặt của nhiễm dữ liệu huấn luyện đã tỏ ra gần như không thể mà không có quyền truy cập vào trọng số mô hình. Một số thành viên cộng đồng đề xuất các cách tiếp cận thay thế, chẳng hạn như sử dụng các câu hỏi từ các câu lạc bộ quiz địa phương chưa được xuất bản trực tuyến, hoặc tập trung vào nội dung sau thời điểm cắt huấn luyện để đảm bảo tính mới của dữ liệu.

Kết quả hiệu suất và ý nghĩa

Bất chấp tranh cãi, kết quả bài kiểm tra cho thấy thứ bậc hiệu suất rõ ràng. GPT-5 với các tham số lý luận cao đạt được độ chính xác tổng thể 90%, vượt trội đáng kể so với các mô hình trước đó. Kết quả cũng cho thấy rằng các cài đặt nỗ lực lý luận cao hơn liên tục cải thiện hiệu suất, mặc dù với chi phí tăng sử dụng token và thời gian phản hồi.

Thú vị là, các mô hình hoạt động tốt nhất ở vòng Missing Vowels (yêu cầu tái tạo các cụm từ với nguyên âm bị loại bỏ) và gặp khó khăn nhất với vòng Wall (nhóm 16 yếu tố thành các danh mục). Mô hình này cho thấy rằng một số nhiệm vụ thực sự có thể ưu tiên việc khớp mẫu thống kê hơn là lý luận thực sự.

Kết quả hiệu suất GPT-5 theo cấu hình:

Cấu hình mô hình Kết nối Chuỗi Tường Thiếu nguyên âm Tổng thể
GPT-5 Cao/Cao 93.8% 90.0% 83.6% 97.1% 90.0%
GPT-5 Thấp/Cao 93.8% 76.3% 82.0% 96.4% 87.5%
GPT-5 Cao/Trung bình 87.5% 79.4% 81.3% 95.6% 86.7%
O3 93.8% 76.9% 78.1% 97.4% 86.3%
Claude Opus 4 65.6% 75.0% 65.6% 90.8% 76.1%
Việc đánh giá hiệu suất lý luận của GPT-5 làm nổi bật sự khác biệt giữa khả năng nhận dạng mẫu hiệu quả và khả năng lý luận thực sự
Việc đánh giá hiệu suất lý luận của GPT-5 làm nổi bật sự khác biệt giữa khả năng nhận dạng mẫu hiệu quả và khả năng lý luận thực sự

Vấn đề bài kiểm tra rộng hơn

Cuộc tranh luận này làm nổi bật một thách thức cơ bản trong đánh giá AI. Như một thành viên cộng đồng lưu ý, giả định nên là các mô hình có thể giải quyết một số vấn đề tốt hơn con người bằng cách sử dụng các phương pháp thống kê thay vì lý luận thực sự. Tranh cãi phản ánh mối quan ngại ngày càng tăng về tính hợp lệ của các bài kiểm tra khi nhiễm dữ liệu huấn luyện khó phát hiện và ngăn chặn.

Cuộc thảo luận cũng đề cập đến câu hỏi rộng hơn về điều gì tạo nên lý luận thực sự so với việc khớp mẫu tinh vi. Với các mô hình đạt được hiệu suất siêu con người trên các nhiệm vụ dường như yêu cầu tư duy bên ngoài, việc phân biệt giữa ghi nhớ và lý luận trở nên ngày càng phức tạp.

Các nhà nghiên cứu dự định phát hành bộ dữ liệu hoàn chỉnh của họ và triển khai các định dạng cạnh tranh giữa các mô hình, mặc dù các câu hỏi cơ bản về nhiễm dữ liệu huấn luyện và đánh giá lý luận vẫn chưa được giải quyết.

Tham khảo: Evaluating & Ranking GPT-5 Reasoning Ability