Gemini của Google DeepMind đạt huy chương vàng chính thức tại Olympic Toán học Quốc tế, gây tranh cãi về cuộc cạnh tranh AI với con người

Nhóm Cộng đồng BigGo
Gemini của Google DeepMind đạt huy chương vàng chính thức tại Olympic Toán học Quốc tế, gây tranh cãi về cuộc cạnh tranh AI với con người

Google DeepMind đã đạt được một cột mốc quan trọng khi giành được huy chương vàng chính thức đầu tiên cho một hệ thống AI tại Olympic Toán học Quốc tế (IMO). Mô hình Gemini Deep Think tiên tiến của họ đã giải được 5 trong số 6 bài toán, đạt 35 trên tổng số 42 điểm - đạt ngưỡng huy chương vàng. Thành tích này đạt được chỉ vài ngày sau khi OpenAI đưa ra những tuyên bố tương tự, nhưng kết quả của Google được công nhận chính thức từ các điều phối viên IMO.

So sánh hiệu suất:

  • Google Gemini Deep Think: 35/42 điểm (giải được 5 bài toán)
  • OpenAI o3: 35/42 điểm (giải được 5 bài toán)
  • Cả hai hệ thống đều thất bại ở Bài toán 6 (bài khó nhất)
  • Ngưỡng huy chương vàng: 35/42 điểm
  • Thời gian giới hạn cuộc thi: 4,5 giờ

Cuộc đua giành quyền thống trị AI toán học

Thời điểm của những thông báo này đã tạo ra tranh cãi trong cộng đồng AI. OpenAI công bố kết quả IMO của họ vào cùng ngày với lễ bế mạc cuộc thi, bất chấp yêu cầu từ ban tổ chức là chờ một tuần để các thí sinh học sinh có thể nhận được sự công nhận xứng đáng trước. Ngược lại, Google đã tham gia vào một chương trình chính thức với các điều phối viên IMO và tôn trọng thời gian được yêu cầu. Sự khác biệt trong cách tiếp cận này đã thu hút sự chỉ trích đối với cách xử lý tình huống của OpenAI, với nhiều người coi đó là ưu tiên công khai hơn là tôn trọng các nhà toán học trẻ đã tham gia cuộc thi.

Bản thân những thành tích kỹ thuật này đã rất đáng chú ý. Cả hai hệ thống AI đều giải được cùng năm bài toán và thất bại ở bài thứ sáu - bài khó nhất thường đòi hỏi sự sáng tạo đáng kể. Tuy nhiên, cách tiếp cận của Google đại diện cho một sự thay đổi lớn so với các phương pháp năm ngoái, chuyển từ việc sử dụng các ngôn ngữ toán học chính thức như Lean sang làm việc hoàn toàn bằng ngôn ngữ tự nhiên trong giới hạn thời gian thi 4,5 giờ.

Sự khác biệt về phương pháp kỹ thuật:

  • Google 2025: Xử lý ngôn ngữ tự nhiên từ đầu đến cuối, 4,5 giờ, phối hợp chính thức với IMO
  • Google 2024: Yêu cầu dịch thủ công sang ngôn ngữ hình thức Lean, tính toán 2-3 ngày
  • OpenAI 2025: Tự đánh giá bởi các cựu huy chương IMO, không có sự phối hợp chính thức

Câu hỏi về tính công bằng và phương pháp

Cộng đồng đang tích cực tranh luận về ý nghĩa thực sự của những kết quả này đối với khả năng của AI. Nhà toán học nổi tiếng Terence Tao đã đặt ra những câu hỏi quan trọng về việc so sánh hiệu suất AI với các thí sinh con người, lưu ý rằng các điều kiện có thể khác nhau đáng kể. Các hệ thống AI có thể sử dụng tài nguyên tính toán khổng lồ, xử lý song song và dữ liệu huấn luyện chuyên biệt - những lợi thế mà người tham gia không có.

Thật hấp dẫn khi xem khả năng của công nghệ AI hiện tại như một đại lượng đơn lẻ: một nhiệm vụ X nhất định hoặc nằm trong khả năng của các công cụ hiện tại, hoặc không. Tuy nhiên, thực tế có một sự chênh lệch rất lớn về khả năng (vài bậc độ lớn) tùy thuộc vào tài nguyên và hỗ trợ mà công cụ được cung cấp.

Việc thiếu minh bạch về chi phí tính toán đặc biệt gây lo ngại cho các quan sát viên. Cả Google và OpenAI đều không tiết lộ cần bao nhiều sức mạnh tính toán để đạt được những kết quả này, dẫn đến suy đoán rằng chi phí tài chính có thể rất lớn - có thể hàng nghìn đô la Mỹ cho mỗi bài toán được giải.

Tác động rộng hơn đến toán học

Mặc dù những thành tích này rất ấn tượng về mặt kỹ thuật, các nhà toán học bày tỏ cảm xúc lẫn lộn về ý nghĩa của chúng. Nhiều người chỉ ra rằng toán học thi đấu khác biệt đáng kể so với toán học nghiên cứu, nơi mục tiêu là hiểu biết chứ không chỉ tìm ra câu trả lời đúng. Nỗi sợ không phải là AI sẽ thay thế các nhà toán học, mà là nó có thể thay đổi cách thức tạo ra và xác thực kiến thức toán học.

Cuộc tranh luận cũng đề cập đến việc liệu AI có nên sử dụng các công cụ xác minh chính thức hay không. Một số người cho rằng các công cụ như trình chứng minh định lý Lean sẽ làm cho các giải pháp đáng tin cậy hơn, trong khi những người khác thấy giá trị trong việc chứng minh khả năng lý luận thuần túy mà không cần hỗ trợ bên ngoài. Lựa chọn làm việc bằng ngôn ngữ tự nhiên của Google thể hiện một cược rằng các phương pháp tiếp cận trí tuệ tổng quát cuối cùng sẽ chứng minh có giá trị hơn các phương pháp chính thức chuyên biệt.

Bối cảnh cuộc thi IMO:

  • Cuộc thi thường niên từ năm 1959
  • 6 học sinh xuất sắc bậc phổ thông mỗi quốc gia
  • 6 bài toán thuộc các lĩnh vực đại số, tổ hợp, hình học, lý thuyết số
  • ~8% thí sinh nhận huy chương vàng
  • Các bài toán được thiết kế để con người có thể giải được trong khung thời gian thi đấu

Nhìn về phía trước

Những phát triển này đánh dấu một bước ngoặt rõ ràng trong khả năng toán học của AI, chuyển từ các công cụ chuyên biệt sang các hệ thống lý luận tổng quát hơn. Tuy nhiên, vẫn còn những câu hỏi quan trọng về chi phí, khả năng mở rộng và ứng dụng thực tế. Tranh cãi về thời điểm thông báo cũng làm nổi bật những căng thẳng rộng hơn trong ngành AI giữa tính nghiêm ngặt khoa học và cạnh tranh thương mại.

Khi các hệ thống AI tiếp tục bằng và vượt qua hiệu suất con người trong các lĩnh vực chuyên biệt, cộng đồng toán học phải đối mặt với những quyết định quan trọng về cách tích hợp những công cụ này trong khi bảo tồn các yếu tố con người làm cho toán học có ý nghĩa. Kết quả IMO rất ấn tượng, nhưng chúng chỉ là khởi đầu của một cuộc trò chuyện lớn hơn nhiều về vai trò của AI trong các hoạt động trí tuệ của con người.

Tham khảo: Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad