Đánh giá mới nhất về các mô hình trí tuệ nhân tạo trong kỳ thi Olympic Toán Quốc tế 2025 đã tiết lộ khoảng cách đáng kể giữa khả năng AI hiện tại và khả năng suy luận toán học của con người. Mặc dù sử dụng các kỹ thuật tính toán tiên tiến và nguồn tài chính đáng kể, mô hình AI hoạt động tốt nhất chỉ đạt được độ chính xác 31%, còn xa so với ngưỡng huy chương đồng.
Kết Quả Hiệu Suất Cho Thấy Những Hạn Chế Rõ Ràng
Gemini 2.5 Pro nổi lên như người dẫn đầu trong số năm mô hình được thử nghiệm, ghi được 13 trên tổng số 42 điểm. Con số này tương đương với việc giải đúng khoảng một phần ba số bài toán, nhưng vẫn thấp hơn đáng kể so với 19 điểm cần thiết để đạt huy chương đồng. Việc đánh giá này tiêu tốn khoảng 400 đô la Mỹ chỉ cho 24 câu trả lời từ Gemini , làm nổi bật tính chất đắt đỏ của việc suy luận AI hiện tại ở quy mô lớn.
Các mô hình lớn khác thậm chí còn hoạt động tệ hơn. Grok-4 và DeepSeek-R1 tụt lại đáng kể phía sau, với nhiều phản hồi chỉ bao gồm câu trả lời cuối cùng đơn thuần mà không có lý giải toán học. Cộng đồng đã ghi nhận mô hình này trên nhiều tiêu chuẩn đánh giá, cho thấy những vấn đề cơ bản với cách tiếp cận suy luận toán học của các mô hình này.
So sánh hiệu suất mô hình
- Gemini 2.5 Pro: 13/42 điểm (độ chính xác 31%) - Thể hiện tốt nhất
- Grok-4: Hiệu suất thấp hơn đáng kể, thường đưa ra câu trả lời mà không có lý giải
- DeepSeek-R1: Kém hiệu quả so với các tiêu chuẩn đánh giá khác
- o3 và o4-mini: Hiệu suất không được nêu chi tiết nhưng dưới ngưỡng huy chương đồng
- Yêu cầu huy chương đồng: 19/42 điểm (độ chính xác 45%)
Sức Mạnh Tính Toán Không Thể Thu Hẹp Khoảng Cách
Các nhà nghiên cứu đã sử dụng chiến lược lựa chọn tốt nhất trong 32 lần thử, tạo ra 32 phản hồi khác nhau cho mỗi bài toán và sử dụng chính các mô hình AI để đánh giá câu trả lời nào mạnh nhất. Cách tiếp cận theo kiểu giải đấu này đã cải thiện đáng kể kết quả so với các lần thử đơn lẻ, nhưng vẫn không thể đạt được hiệu suất ở mức huy chương.
Yêu cầu tính toán là rất lớn. Mỗi câu trả lời cuối cùng tiêu tốn ít nhất 3 đô la Mỹ để tạo ra trung bình, với các phản hồi của Grok-4 tiêu tốn hơn 20 đô la Mỹ cho mỗi câu. Điều này đặt ra câu hỏi về khả năng mở rộng thực tế của suy luận toán học AI hiện tại, đặc biệt khi kết quả vẫn còn xa so với hiệu suất của chuyên gia con người.
Chi phí tính toán
- Chi phí trung bình cho mỗi câu trả lời cuối cùng: 3+ USD
- Chi phí của Grok-4 cho mỗi câu trả lời: 20+ USD
- Tổng chi phí cho việc đánh giá Gemini 2.5 Pro : 400 USD cho 24 câu trả lời
- Phương pháp: Lựa chọn tốt nhất trong 32 với việc đánh giá theo kiểu giải đấu
- Giới hạn token: Tối đa 64.000 token cho mỗi mô hình
Vấn Đề Chất Lượng Vẫn Tồn Tại Trong Suy Luận Toán Học AI
Việc đánh giá đã tiết lộ một số mô hình đáng lo ngại trong hành vi AI. Gemini 2.5 Pro tiếp tục trích dẫn các định lý toán học không tồn tại khi gặp khó khăn với các chứng minh, mặc dù hành vi này xuất hiện ít thường xuyên hơn so với các đánh giá trước đó. Việc bịa đặt như vậy về thẩm quyền toán học làm suy giảm niềm tin vào nội dung toán học được tạo ra bởi AI.
Thú vị là, các mô hình thường nhận được điểm một phần vì xác định đúng chiến lược nhưng thất bại trong việc thực hiện các chứng minh phù hợp. Các giám khảo con người lưu ý rằng các phản hồi AI thường chứa những khoảng trống logic mà các nhà toán học con người có thể tránh được một cách tương đối đơn giản. Điều này cho thấy các mô hình hiểu các khái niệm toán học ở mức độ bề mặt nhưng gặp khó khăn với suy luận logic nghiêm ngặt.
Cộng Đồng Tranh Luận Về Tiêu Chuẩn Đánh Giá AI
Kết quả đã khơi mào cuộc thảo luận về các tiêu chuẩn phù hợp để đánh giá khả năng AI. Một số thành viên cộng đồng cho rằng việc so sánh AI với những con người có hiệu suất cao nhất trong các lĩnh vực chuyên biệt đã bỏ lỡ điểm mấu chốt của các ứng dụng AI thực tế. Hầu hết các vấn đề hàng ngày không yêu cầu sự sáng tạo toán học ở mức olympic.
Tuy nhiên, những người khác cho rằng suy luận toán học đại diện cho một bài kiểm tra quan trọng về trí thông minh thực sự thay vì chỉ là việc khớp mẫu. Thực tế là các mô hình này có thể truy cập hàng triệu bài toán tương tự thông qua dữ liệu huấn luyện của chúng nhưng vẫn thất bại trong các thách thức toán học mới cho thấy những hạn chế cơ bản trong kiến trúc AI hiện tại.
Người bình thường kém trong hầu hết mọi thứ. Nếu tôi muốn làm gì đó, tôi sẽ tìm kiếm ai đó có bộ kỹ năng phù hợp với vấn đề.
Phương pháp đánh giá
- Các mô hình được kiểm tra: 5 LLM tiên tiến nhất ( o3 , o4-mini , Gemini-2.5-Pro , Grok-4 , DeepSeek-R1 )
- Chấm điểm: 4 chuyên gia con người có chuyên môn toán học cấp độ IMO
- Hệ thống điểm: Tối đa 7 điểm cho mỗi bài toán, tổng cộng 42 điểm
- Quy trình lựa chọn: 32 phản hồi được tạo ra, loại bỏ theo kiểu giải đấu sử dụng khả năng tự đánh giá của mô hình
- Thời điểm đánh giá: Ngay lập tức sau khi công bố các bài toán IMO 2025 để tránh nhiễu dữ liệu
![]() |
---|
Hình ảnh bục vinh danh với những người chiến thắng và một robot bối rối tượng trưng cho cuộc tranh luận đang diễn ra về khả năng lý luận toán học của AI so với hiệu suất của con người |
Những Tuyên Bố Mâu Thuẫn Tạo Thêm Sự Không Chắc Chắn
Thêm vào sự phức tạp của việc đánh giá, OpenAI đã thông báo rằng một mô hình thử nghiệm chưa được phát hành đã đạt được hiệu suất huy chương vàng trên cùng những bài toán này. Tuy nhiên, tuyên bố này thiếu sự xác minh độc lập và liên quan đến nguồn tài nguyên tính toán không giới hạn, khiến việc so sánh trực tiếp trở nên khó khăn.
Cộng đồng vẫn hoài nghi về những tuyên bố chưa được xác minh, đặc biệt là do những động lực tài chính đáng kể trong ngành công nghiệp AI. Không có phương pháp luận minh bạch và kết quả có thể tái tạo, những thông báo như vậy đóng góp rất ít vào việc hiểu khả năng AI thực tế.
Đánh giá IMO 2025 chứng minh rằng mặc dù có những tiến bộ ấn tượng trong việc tạo ra ngôn ngữ, các mô hình AI hiện tại vẫn gặp khó khăn với loại suy luận sáng tạo, logic mà việc giải quyết vấn đề toán học đòi hỏi. Mặc dù chúng cho thấy triển vọng trong việc xác định các chiến lược liên quan, việc thực hiện các chứng minh toán học nghiêm ngặt vẫn là một thách thức đáng kể đối với các hệ thống trí tuệ nhân tạo.
Tham khảo: Not Even Bronze: Evaluating LLMs on 2025 International Math Olympiad