Cộng đồng AI đang phải đối mặt với một mâu thuẫn khó hiểu. Trong khi các mô hình gần đây từ OpenAI và Google đã đạt được thành tích huy chương vàng tại International Mathematical Olympiad 2025, chính những hệ thống này lại gặp khó khăn với các nhiệm vụ cơ bản đáng ngạc nhiên mà hầu hết con người xử lý một cách dễ dàng.
Nghịch lý hiệu suất lớn của AI
Sự mâu thuẫn này đã khơi dậy cuộc tranh luận sôi nổi trong giới phát triển và nghiên cứu. Các mô hình ngôn ngữ tiên tiến hiện có thể giải quyết các bài toán phức tạp thách thức những học sinh thông minh nhất thế giới, nhưng chúng lại liên tục thất bại ở phép tính số học cơ bản với các số lớn và thậm chí thua trong trò chơi tic-tac-toe - một trò chơi đã được giải quyết về mặt toán học từ hàng thập kỷ trước.
Các cuộc thảo luận trong cộng đồng cho thấy chiều sâu của vấn đề này. GPT-5 và các mô hình tương tự không thể cộng hai số nguyên lớn một cách đáng tin cậy mà không có máy tính, thường mắc lỗi khi sao chép kết quả mà chúng đã tính toán đúng. Thậm chí còn đáng chú ý hơn, những hệ thống này sẽ tự tin thực hiện những nước đi tồi trong tic-tac-toe sau khi dành thời gian đáng kể để suy nghĩ về trò chơi.
Lưu ý: International Mathematical Olympiad là một cuộc thi hàng năm có các bài toán khó nhất dành cho học sinh trung học trên thế giới.
So sánh hiệu suất AI theo loại nhiệm vụ:
Danh mục nhiệm vụ | Mức độ hiệu suất | Ví dụ | Hạn chế chính |
---|---|---|---|
"Mục tiêu dễ" | Trình độ huy chương vàng | Bài toán IMO , thử thách lập trình | Trí thông minh của mô hình |
"Mục tiêu khó" | Kém đến trung bình | Thuyết trình trước hội đồng, vận hành kinh doanh | Khoảng cách về bối cảnh và đặc tả |
Số học cơ bản | Không ổn định | Phép cộng số lớn, tic-tac-toe | Lỗi tokenization và suy luận |
Tại sao ngữ cảnh quan trọng hơn trí thông minh thuần túy
Sự khác biệt chính nằm ở cách các vấn đề được cấu trúc. Các bài toán olympic toán học đi kèm với các đặc tả hoàn chỉnh, chính thức chứa tất cả thông tin cần thiết để giải quyết. Không có sự mơ hồ nào về điều gì tạo nên một câu trả lời đúng. Ngược lại, các nhiệm vụ trong thế giới thực tồn tại trong môi trường lộn xộn, năng động nơi ngữ cảnh quan trọng được phân tán qua email, cuộc họp và kiến thức của mọi người.
Điều này giải thích tại sao một mô hình có thể xuất sắc trong việc chứng minh các định lý phức tạp nhưng lại gặp khó khăn khi viết một bài thuyết trình hiệu quả cho hội đồng quản trị. Bài toán có khoảng cách đặc tả bằng không, trong khi nhiệm vụ kinh doanh đòi hỏi hiểu biết về chiến lược công ty, động lực hội đồng quản trị, các quyết định gần đây và những ràng buộc không được nói ra.
Yêu cầu để AI giải quyết tác vụ hiệu quả:
• Đặc tả vấn đề: Định nghĩa chính xác các yêu cầu của tác vụ với độ mơ hồ tối thiểu
• Bối cảnh: Kiến thức cục bộ bao gồm lịch sử công ty, các quyết định và ràng buộc
• Công cụ giải quyết: Mô hình AI với các công cụ và khả năng phù hợp
• Khoảng trống đặc tả: Sự không chắc chắn còn lại sau khi định nghĩa vấn đề - khoảng trống càng nhỏ thì hiệu suất AI càng tốt
Nút thắt cổ chai con người trong tự động hóa AI
Bất chấp những giấc mơ về các công ty hoạt động với 90% tác nhân AI, những hạn chế hiện tại cho thấy chúng ta còn xa mới đạt được thực tế đó. Nút thắt cổ chai không phải là trí thông minh của mô hình mà là nỗ lực to lớn của con người cần thiết để xác định rõ ràng các nhiệm vụ và cung cấp ngữ cảnh liên quan. Mọi quy trình làm việc sẽ cần các đặc tả được thiết kế cẩn thận và các đường ống ngữ cảnh - một cơn ác mộng bảo trì cho các tổ chức với hàng nghìn quy trình phụ thuộc lẫn nhau.
Con người sẽ gặp khó khăn, nhưng họ sẽ nhận ra những điều họ cần biết và tìm kiếm những người có thể có thông tin liên quan.
Điều này làm nổi bật một lợi thế quan trọng mà con người duy trì: khả năng nhận ra những khoảng trống kiến thức và tích cực tìm kiếm thông tin còn thiếu, điều mà các hệ thống AI hiện tại không thể thực hiện một cách đáng tin cậy.
Con đường phía trước cho tự động hóa AI
Cộng đồng thấy các giải pháp tiềm năng đang nổi lên. Các hệ thống quản lý ngữ cảnh tốt hơn, bộ nhớ tình huống được cải thiện cho các tác nhân AI và cửa sổ ngữ cảnh dài hơn có thể giúp thu hẹp khoảng cách. Một số nhà phát triển báo cáo thành công khi sử dụng quy trình làm việc nhiều bước kiểm tra cơ sở kiến thức trước và sau mỗi yêu cầu AI.
Tuy nhiên, thách thức cơ bản vẫn còn. Cho đến khi các hệ thống AI có thể xác định đáng tin cậy những gì chúng không biết và tích cực thu thập ngữ cảnh còn thiếu, sự giám sát của con người sẽ vẫn cần thiết cho hầu hết các ứng dụng thực tế. Tương lai của tự động hóa AI có thể phụ thuộc ít hơn vào việc làm cho các mô hình thông minh hơn và nhiều hơn vào việc xây dựng các hệ thống tốt hơn để nắm bắt, tổ chức và cung cấp ngữ cảnh mà những mô hình này cần để thành công.
Lưu ý: Các hệ thống bộ nhớ tình huống cho phép AI lưu trữ và gọi lại các trải nghiệm hoặc tương tác cụ thể, tương tự như cách con người nhớ các sự kiện trong quá khứ.
Tham khảo: Model intelligence is no longer the constraint for automation