GPT-5 Cho Thấy Tiến Bộ Lớn Với Các Câu Hỏi Thách Thức ChatGPT Gốc Của Knuth

Nhóm Cộng đồng BigGo
GPT-5 Cho Thấy Tiến Bộ Lớn Với Các Câu Hỏi Thách Thức ChatGPT Gốc Của Knuth

Vào tháng 5 năm 2023, nhà khoa học máy tính huyền thoại Donald Knuth đã thử thách ChatGPT với 20 câu hỏi khó, bộc lộ những điểm yếu đáng kể trong khả năng lý luận của hệ thống AI này. Giờ đây, gần hai năm sau, cộng đồng công nghệ đang xem xét lại những câu hỏi tương tự với GPT-5 , cho thấy những cải tiến đáng kể trong khả năng của AI.

Dòng thời gian Thử thách Knuth gốc

  • Tháng 5/2023: Donald Knuth đã công bố 20 câu hỏi thách thức dành cho ChatGPT
  • 626 bình luận và 927 điểm trong cuộc thảo luận ban đầu
  • GPT-3.5 được sử dụng chủ yếu trong quá trình kiểm tra ban đầu
  • 2025: Cộng đồng xem xét lại các câu hỏi với GPT-5

GPT-5 Mang Lại Khả năng Lý Luận Toán Học Chính Xác Hơn

Mô hình mới cho thấy tiến bộ đáng kể trong các bài toán từng làm khó các phiên bản trước đó. Một cải tiến đặc biệt đáng chú ý liên quan đến các định nghĩa toán học phức tạp và các trường hợp đặc biệt. Khi được hỏi về hệ số nhị thức với số nguyên âm, GPT-5 đã đưa ra lời giải thích sâu sắc về cách Wolfram định nghĩa các đối tượng toán học này, thừa nhận các quy ước khác nhau và sự đánh đổi của chúng. Điều này thể hiện một bước tiến đáng kể so với những câu trả lời rối rắm hoặc không chính xác đặc trưng của các mô hình trước đó.

Tuy nhiên, một số hạn chế cơ bản vẫn tồn tại. Mô hình vẫn gặp khó khăn với các tác vụ đếm chữ cái cơ bản, không thể tạo ra các câu chỉ sử dụng những từ có năm chữ cái. Điểm yếu này xuất phát từ cách các hệ thống AI này xử lý ngôn ngữ thông qua các đoạn từ thay vì từng chữ cái riêng lẻ, khiến các tác vụ ở mức ký tự trở nên khó khăn một cách đáng ngạc nhiên.

Những Hạn chế Dai dẳng

  • Đếm chữ cái và các tác vụ ở cấp độ ký tự
  • Xây dựng câu với yêu cầu độ dài từ cụ thể
  • Các vấn đề tokenization với BPE ( Byte Pair Encoding )
  • Những lỗi tinh vi có thể khó phát hiện hơn

Hiệu Suất Lập Trình Cho Thấy Sự Cải Tiến Đáng Kể

Có lẽ những tiến bộ ấn tượng nhất xuất hiện trong các tác vụ lập trình. GPT-5 thể hiện sự hiểu biết mạnh mẽ hơn nhiều về phát triển phần mềm, tạo ra mã không chỉ chính xác mà còn có cấu trúc tốt và thực tế. Người dùng báo cáo rằng mô hình có thể tạo ra các chương trình phức tạp với những tính năng hữu ích không được yêu cầu rõ ràng, cho thấy sự hiểu biết cải thiện về những gì làm cho mã thực sự hữu ích.

Notebook mà nó tạo ra chính xác 100%, thực sự hữu ích, và được xây dựng theo cách tổng quát để tôi có thể dễ dàng thay đổi ánh xạ để khám phá các loại hàm khác nhau.

Sự cải tiến về lập trình này mở rộng vượt ra ngoài tính chính xác cú pháp đơn giản để bao gồm các quyết định kiến trúc tốt hơn và cấu trúc mã dễ bảo trì hơn.

Các Lĩnh Vực Cải Thiện Chính trong GPT-5

  • Khả năng suy luận toán học với các trường hợp biên phức tạp
  • Tạo mã và kiến trúc phần mềm
  • Giảm tần suất đưa ra các câu trả lời sai rõ ràng
  • Xử lý tốt hơn các tác vụ lập trình Wolfram / Mathematica

Mối Quan Ngại Về Tin Cậy Và Độ Tin Cậy Vẫn Còn

Bất chấp những tiến bộ này, cộng đồng tiếp tục vật lộn với những câu hỏi cơ bản về độ tin cậy của AI. Một số người dùng lưu ý rằng trong khi GPT-5 đưa ra ít câu trả lời sai rõ ràng hơn, sự cải tiến này thực sự có thể làm cho hệ thống trở nên nguy hiểm hơn bằng cách làm cho các lỗi khó phát hiện hơn. Mối quan ngại tập trung vào những sai sót tinh vi có thể thoát khỏi việc xem xét của con người, đặc biệt trong các lĩnh vực mà người dùng thiếu chuyên môn sâu.

Cuộc thảo luận tiết lộ một thách thức đang diễn ra trong phát triển AI: cân bằng giữa cải tiến khả năng với độ tin cậy. Khi các hệ thống này trở nên tinh vi hơn, chúng có thể trở nên giỏi hơn trong việc tạo ra thông tin thuyết phục nhưng không chính xác, khiến việc xác minh của con người vừa quan trọng hơn vừa khó khăn hơn.

Nhìn Về Phía Trước

Tiến bộ từ GPT-3.5 đến GPT-5 thể hiện sự tiến bộ đáng kể trong khả năng AI, đặc biệt trong lý luận toán học và tạo mã. Tuy nhiên, những thách thức dai dẳng với các tác vụ cơ bản như đếm chữ cái phục vụ như lời nhắc nhở rằng các hệ thống này vẫn có những hạn chế cơ bản. Khi công nghệ tiếp tục phát triển, sự cân bằng giữa khả năng và độ tin cậy vẫn là một cân nhắc quan trọng cho cả nhà phát triển và người dùng.

Tham khảo: DAIKIN.AI Q&A