Giới công nghệ đã ăn mừng khi OpenAI ra mắt mô hình lập luận o1 vào năm 2024, coi đó như một bước đột phá trong trí tuệ nhân tạo. Những mô hình này hứa hẹn sẽ suy nghĩ từng bước, giải quyết các vấn đề phức tạp và xử lý được toán học ở trình độ sau đại học. Tuy nhiên, việc xem xét kỹ hơn về cách thức hoạt động thực sự của các hệ thống này đã châm ngòi cho một cuộc tranh luận gay gắt giữa các nhà phát triển và nhà nghiên cứu về việc liệu chúng ta đang chứng kiến sự tiến bộ thực sự của AI hay chỉ là những giải pháp kỹ thuật tinh vi hơn.
Tranh cãi về Việc Sử dụng Công cụ
Cốt lõi của cuộc tranh luận là một câu hỏi cơ bản: khi các mô hình AI sử dụng các công cụ bên ngoài để giải quyết vấn đề, liệu điều này có đại diện cho khả năng lập luận thực sự hay chỉ là sự sắp xếp khéo léo? Những người chỉ trích chỉ ra các ví dụ nơi các mô hình như o1 tạo ra mã Python để thực hiện các phép tính số học thay vì tính toán câu trả lời bên trong. Điều này khiến một số nhà quan sát đặt câu hỏi liệu trí thông minh cốt lõi của các mô hình này có thực sự được cải thiện hay không, hay là các nhà phát triển chỉ đang xây dựng một hệ thống tốt hơn xung quanh một nền tảng vốn dậm chân tại chỗ.
Tuy nhiên, các chuyên gia kỹ thuật nhanh chóng thách thức cách mô tả này. Thông qua kiểm tra API trực tiếp, các nhà phát triển đã chứng minh rằng các mô hình lập luận thực sự có thể thực hiện các phép tính phức tạp như nhân các số lớn thông qua quá trình lập luận nội bộ thuần túy, mà không cần dùng đến các công cụ bên ngoài. Các mô hình thể hiện các bước làm việc của chúng thông qua dấu vết lập luận từng bước chi tiết, giống với cách tiếp cận giải quyết vấn đề của con người.
Khả năng kết nối các lệnh gọi công cụ theo cách này tự nó là một sự cải tiến mô hình sâu sắc, chỉ mới xảy ra ở các mô hình nền tảng chính thống, cách đây một năm.
Khả năng này đại diện cho một bước tiến quan trọng trong siêu nhận thức của AI - khả năng các mô hình quyết định khi nào nên giải quyết vấn đề nội bộ so với khi nào nên tận dụng các công cụ bên ngoài, giống như con người lựa chọn giữa tính nhẩm và sử dụng máy tính tùy thuộc vào độ phức tạp của phép tính.
Đo lường Tiến bộ Thực sự
Cuộc thảo luận tiết lộ những câu hỏi sâu hơn về cách chúng ta nên đo lường sự tiến bộ của AI. Trong khi một số người cho rằng khả năng cơ bản của mô hình đã chững lại, các nhà phát triển trực tiếp lại báo cáo những cải thiện đáng kể về khả năng lập trình giữa các thế hệ mô hình. Sự chuyển đổi từ GPT-4 sang GPT-5 mang lại những bước tiến rõ rệt về chất lượng tạo mã, với nhiều nhà phát triển chuyển từ Claude trở lại các mô hình của OpenAI cho các tác vụ lập trình.
Các chỉ số kinh tế cũng cho thấy sự tăng trưởng mạnh mẽ trong lĩnh vực mã hóa AI. Các công cụ như Cursor đã đạt được doanh thu định kỳ hàng năm 500 triệu đô la Mỹ trong vòng 15 tháng, trong khi GitHub Copilot phục vụ hàng triệu người dùng và tạo ra doanh thu hàng trăm triệu. Sự mở rộng thị trường này cho thấy rằng các khả năng AI hiện tại, ngay cả khi không có cải tiến thêm, có thể thúc đẩy những đột phá về năng suất đáng kể trong toàn ngành công nghiệp phần mềm trong tương lai gần.
Tăng trưởng thị trường công cụ lập trình AI (tính đến tháng 10 năm 2025):
- Cursor: 500 triệu USD ARR trong 15 tháng, định giá 10 tỷ USD
- GitHub Copilot: Hàng triệu người dùng, doanh thu hàng trăm triệu đô la
- Windsurf: Được mua lại với giá 2,4 tỷ USD
- Hàng chục startup gọi vốn các vòng chín con số
Hạn chế về Kiến trúc và Hướng đi Tương lai
Ẩn dưới bề mặt của những cuộc tranh luận này là một thách thức kiến trúc cơ bản hơn. Các mô hình dựa trên kiến trúc transformer hiện tại phải đối mặt với những hạn chế vốn có do quá trình mã hóa (tokenization) và các embedding có kích thước cố định của chúng. Một số nhà nghiên cứu mô tả AI hiện đại như đang thực hiện nén có tổn hao (lossy compression) của internet, nơi ý nghĩa ngữ nghĩa có thể bị phân mảnh trong quá trình xử lý.
Cộng đồng đang khám phá một số đổi mới kiến trúc đầy hứa hẹn để giải quyết những hạn chế này. Các kiến trúc dựa trên đồ thị (Graph-based) có thể bảo toàn các mối quan hệ cấu trúc, ngăn chặn sự phân mảnh ngữ nghĩa đang làm phiền các mô hình hiện tại. Các cơ chế chú ý thưa (Sparse attention) có thể duy trì ngữ cảnh dài hơn một cách hiệu quả, trong khi các phương pháp tiếp cận neuromorphic có thể lấy cảm hứng từ tổ chức thần kinh sinh học. Tuy nhiên, hầu hết các chuyên gia đều thận trọng rằng những giải pháp thay thế này hiện chỉ mang lại những cải tiến từng bước hơn là những đột phá mang tính cách mạng.
Con đường Phía trước
Ngành công nghiệp AI đang đứng trước ngã rẽ giữa hai con đường phát triển tiềm năng. Con đường thứ nhất liên quan đến việc tiếp tục tối ưu hóa các kiến trúc hiện tại với sự sắp xếp công cụ tốt hơn và tích hợp ứng dụng sâu hơn - điều mà những người chỉ trích gọi là hệ thống tốt hơn. Cách tiếp cận này mang lại doanh thu ngắn hạn có thể dự đoán được và những cải tiến dần dần liên tục.
Con đường thay thế đòi hỏi phải thừa nhận những hạn chế về kiến trúc và đầu tư vào những nền tảng cơ bản khác biệt. Điều này có nghĩa là nhiều năm nghiên cứu tốn kém, không chắc chắn và không đảm bảo thành công, nhưng đó là cách tiếp cận duy nhất giải quyết các nguyên nhân gốc rễ thay vì các triệu chứng. Quyết định giữa những con đường này sẽ xác định liệu tác động GDP dự kiến 3 nghìn tỷ đô la Mỹ từ AI có trở thành hiện thực hay vẫn chỉ là ảo tưởng.
Khi cuộc tranh luận tiếp diễn, một điều vẫn rõ ràng: cuộc thảo luận sôi nổi của cộng đồng AI về những câu hỏi cơ bản này phản ánh một lĩnh vực đang trưởng thành vượt ra ngoài sự cường điệu hóa và đang vật lộn với những thách thức kỹ thuật khó khăn cần thiết cho sự tiến bộ thực sự. Dù là thông qua những cải tiến tiến hóa cho các kiến trúc hiện tại hay những cách tiếp cận mới mang tính cách mạng, cuộc tìm kiếm khả năng lập luận thực sự trong trí tuệ nhân tạo vẫn tiếp tục.
Tham khảo: Reasoning Is Not Model Improvement
