Các mô hình ngôn ngữ lớn đang thể hiện những khả năng mới đáng ngạc nhiên trong các lĩnh vực mà trước đây chúng vốn được coi là yếu - thao tác văn bản ở cấp độ ký tự. Các cuộc kiểm tra gần đây từ cộng đồng tiết lộ rằng những mô hình mới hơn như GPT-5 và Claude Sonnet 4 giờ đây có thể xử lý các tác vụ như đếm chữ cái cụ thể trong từ, giải mã Base64 và giải các mật mã thay thế, những khả năng mà trước đây đòi hỏi các công cụ chuyên dụng hoặc sự can thiệp của con người. Sự phát triển này đã khơi mào một cuộc thảo luận sôi nổi về việc những cải tiến này có ý nghĩa gì đối với sự hiểu biết của chúng ta về trí thông minh AI và liệu chúng ta đang chứng kiến sự phát triển năng lực thực sự hay chỉ đơn giản là dạy để đối phó với bài kiểm tra.
Bài Kiểm Tra Strawberry Từng Làm Khó Các Mô Hình Đời Đầu
Cộng đồng đã rất quan tâm đến cái được gọi là bài kiểm tra strawberry - yêu cầu một LLM đếm xem chữ cái 'r' xuất hiện bao nhiêu lần trong từ strawberry. Trong nhiều năm, câu hỏi đơn giản này đã phơi bày một điểm yếu cơ bản trong các mô hình ngôn ngữ. Các mô hình đời đầu liên tục thất bại, thường đưa ra câu trả lời như bảy chữ R hoặc đếm sai hoàn toàn. Thất bại bắt nguồn từ cách LLM xử lý văn bản thông qua tokenization, nơi các ký tự được nhóm thành các token thay vì được xử lý riêng lẻ. Điều này khiến các thao tác ở cấp độ ký tự trở nên cực kỳ khó khăn đối với các mô hình vốn có khả năng thực hiện các nhiệm vụ suy luận phức tạp.
Điều đã thay đổi gần đây là các mô hình mới hơn từ nhiều nhà cung cấp hiện đang vượt qua các bài kiểm tra này một cách nhất quán. Các thành viên cộng đồng thử nghiệm các mô hình GPT-5 nhận thấy chúng có thể xác định chính xác ba chữ 'r' trong từ strawberry ngay cả khi không kích hoạt khả năng suy luận. Tương tự, Claude Sonnet 4 trở thành mô hình đầu tiên của Anthropic giải quyết được vấn đề này. Thời điểm đặc biệt thú vị - cả các mô hình của OpenAI và Anthropic đều phát triển khả năng này vào cùng khoảng thời gian, bất chấp các cách tiếp cận kiến trúc khác nhau của họ. Sự cải tiến đồng thời này cho thấy hoặc là sự tiến hóa hội tụ trong phát triển AI, hoặc là cả hai công ty đều xác định thao tác cấp độ ký tự là một tiêu chuẩn quan trọng cần giải quyết.
Kết Quả Kiểm Tra Thao Tác Ký Tự
- Câu Lệnh Kiểm Tra: Thay thế tất cả chữ cái "r" bằng "T" và chuyển đổi tất cả chữ cái "I" thành ":" trong câu "I really love a ripe strawberry"
- GPT-3.5-turbo: Thất bại - "I lealll love a liple strallbeelly"
- GPT-4-turbo: Thất bại - "I rearry rove a ripe strawberly"
- GPT-4.1: Mô hình đầu tiên thành công một cách nhất quán
- GPT-5: Thành công mà không cần khả năng suy luận
Tranh Luận Về Sử Dụng Công Cụ: Trí Thông Minh Hay Gian Lận?
Cộng đồng chia rẽ sâu sắc về cách LLM nên xử lý các tác vụ cấp độ ký tự. Một số cho rằng các mô hình nên tự động sử dụng các công cụ lập trình cho các thao tác chính xác, trong khi những người khác tin rằng trí thông minh thực sự có nghĩa là phát triển các khả năng nội tại. Một bình luận đã nắm bắt được bản chất của cuộc tranh luận này một cách hoàn hảo:
Nếu tôi yêu cầu bạn đếm số chữ r trong từ strawberry, bạn có lập tức lôi công cụ Python ra không?
Điều này làm nổi bật câu hỏi cốt lõi: điều gì cấu thành trí thông minh thực sự trong các hệ thống AI? Những người ủng hộ việc sử dụng công cụ chỉ ra rằng con người thường xuyên sử dụng máy tính cho các bài toán và tài liệu tham khảo cho các nhiệm vụ phức tạp. Họ lập luận rằng biết khi nào cần sử dụng các công cụ phù hợp là một dấu hiệu của trí thông minh. Tuy nhiên, những người khác phản bác rằng việc phụ thuộc quá mức vào các công cụ bên ngoài khiến các hệ thống AI trở nên mong manh và phụ thuộc vào các điều kiện hoàn hảo. Cuộc thảo luận tiết lộ những bất đồng cơ bản về những gì chúng ta muốn từ các trợ lý AI - khả năng suy luận thuần túy hay giải quyết vấn đề thực tế sử dụng tất cả các nguồn lực có sẵn.
Cuộc thảo luận về sử dụng công cụ mở rộng ra ngoài việc đếm ký tự đến các nhiệm vụ phức tạp hơn như giải mã Base64 và giải mật mã. Kiểm tra từ cộng đồng cho thấy trong khi một số mô hình có thể xử lý các tác vụ này một cách nội tại, những mô hình khác sẽ tạo mã Python để giải quyết chúng. Điều này dẫn đến các câu hỏi về việc liệu chúng ta đang đo lường trí thông minh của mô hình hay khả năng viết mã của nó. Một số thành viên cộng đồng bày tỏ sự thất vọng vì họ phải quản lý vi mô các hệ thống AI bằng cách nói rõ cho chúng biết khi nào nên sử dụng công cụ, lập luận rằng các hệ thống thông minh thực sự phải suy luận được cách tiếp cận phù hợp từ ngữ cảnh.
Những Nhận Định Quan Trọng Từ Cộng Đồng
- Cuộc tranh luận giữa việc sử dụng công cụ và phát triển khả năng nội tại
- Những lo ngại về an toàn hạn chế khả năng xử lý nội dung được mã hóa của một số mô hình
- Câu hỏi về việc liệu những cải tiến có thực sự đại diện cho trí thông minh hay chỉ là "dạy để thi"
- Những quan sát cho thấy các mô hình suy luận của Trung Quốc sử dụng độc thoại nội tâm rất dài (3K-7K token) cho các tác vụ ở cấp độ ký tự
An Toàn So Với Năng Lực Trong Nội Dung Được Mã Hóa
Một phát hiện bất ngờ từ kiểm tra của cộng đồng liên quan đến cách các mô hình khác nhau xử lý nội dung được mã hóa và mã hóa. Khi được trình bày với văn bản được mã hóa Base64 chứa các mật mã ROT20, Claude Sonnet 4.5 liên tục từ chối xử lý nội dung, gắn cờ nó là không an toàn. Grok 4 cũng cho thấy hành vi tương tự, từ chối văn bản Base64 trong khi sẵn sàng làm việc trực tiếp với mật mã ROT20. Cách tiếp cận ưu tiên an toàn này có những hệ quả thực tế - nó có thể khiến các mô hình này không thể sử dụng được cho việc làm việc với các ngôn ngữ hiếm hoặc các tác vụ mã hóa hợp pháp.
Các hạn chế về an toàn cho thấy sự căng thẳng giữa năng lực và thận trọng trong phát triển AI. Mặc dù ngăn chặn sử dụng sai là quan trọng, nhưng các bộ lọc an toàn quá nhạy cảm có thể hạn chế các trường hợp sử dụng hợp pháp. Các thành viên cộng đồng lưu ý rằng mã hóa Base64 thường được sử dụng trong các ứng dụng hợp pháp như tệp đính kèm email và lưu trữ dữ liệu, không chỉ để che giấu. Các phản hồi khác nhau từ các mô hình khác nhau cho thấy các công ty đang áp dụng các cách tiếp cận khác nhau để cân bằng điều này, với một số ưu tiên năng lực và những người khác nhấn mạnh vào an toàn.
Hiệu suất Giải mã Base64 và ROT20
- GPT-4.1: Giải mã Base64 thành công, giải mã ROT20 thất bại
- GPT-5-mini: Hoàn thành đầy đủ (Base64 + ROT20)
- GPT-5: Hoàn thành đầy đủ
- Claude Sonnet 4.5: Thất bại về mặt an toàn với nội dung được mã hóa
- Gemini-2.5-pro: Hoàn thành đầy đủ
- Qwen-235b: Yêu cầu lý luận để hoàn thành đầy đủ
Việc Xử Lý Ký Tự Được Cải Thiện Tiết Lộ Điều Gì Về Sự Phát Triển Của LLM
Việc kiểm tra của cộng đồng cung cấp những hiểu biết hấp dẫn về cách các khả năng của LLM phát triển. Thực tế là nhiều nhà cung cấp đã phát triển khả năng thao tác cấp độ ký tự vào cùng một thời điểm cho thấy hoặc là các kỹ thuật đào tạo được chia sẻ hoặc là khả năng này xuất hiện một cách tự nhiên ở các ngưỡng quy mô nhất định. Một số suy đoán rằng các nhà cung cấp có thể đã đào tạo cụ thể các mô hình về các tác vụ đếm ký tự sau khi chúng trở thành các điểm chuẩn phổ biến, trong khi những người khác tin rằng sự cải thiện là một tác dụng phụ của việc mở rộng quy mô năng lực chung.
Kết quả giải mã Base64 đặc biệt có ý nghĩa. Các mô hình đời đầu chỉ có thể giải mã Base64 khi nó chứa các mẫu tiếng Anh phổ biến, cho thấy chúng đã ghi nhớ các bản dịch thường xuyên hơn là hiểu thuật toán. Các mô hình mới hơn đã giải mã thành công văn bản được mã hóa ROT20 trông như vô nghĩa từ Base64, cho thấy chúng đã phát triển sự hiểu biết thực sự về chính thuật toán Base64. Điều này đại diện cho một bước nhảy vọt đáng kể từ nhận dạng mẫu sang sự hiểu biết thuật toán.
Cộng đồng vẫn chia rẽ về việc liệu những cải tiến này có đại diện cho sự phát triển trí thông minh thực sự hay chỉ là đào tạo chuyên biệt. Một số coi đó là bằng chứng về khả năng mở rộng rộng hơn, trong khi những người khác xem đó là dạy để đối phó với bài kiểm tra - tối ưu hóa cho các điểm chuẩn phổ biến thay vì phát triển trí thông minh chung. Điều rõ ràng là ranh giới giữa khả năng chuyên biệt và trí thông minh chung ngày càng trở nên mờ nhạt khi các mô hình giải quyết các nhiệm vụ mà chúng không bao giờ được thiết kế rõ ràng để xử lý.
Tương Lai Của Các Năng Lực LLM
Khi các mô hình ngôn ngữ tiếp tục làm chúng ta ngạc nhiên với các khả năng trong các lĩnh vực mà chúng không được thiết kế cho, cộng đồng đang tự hỏi những khả năng bất ngờ khác có thể xuất hiện. Những cải tiến về thao tác cấp độ ký tự, mặc dù có vẻ nhỏ, đại diện cho một bước tiến quan trọng trong việc các mô hình hiểu các khối xây dựng cơ bản của ngôn ngữ. Liệu điều này có dẫn đến việc xử lý tốt hơn các ngôn ngữ chắp dính, hiểu mã được cải thiện hay các ứng dụng không lường trước khác vẫn còn phải chờ xem.
Cuộc tranh luận đang diễn ra về việc sử dụng công cụ so với khả năng nội tại phản ánh những câu hỏi lớn hơn về những gì chúng ta muốn từ các hệ thống AI. Như một thành viên cộng đồng đã lưu ý, khả năng sử dụng công cụ là thứ phân biệt con người với các loài động vật khác - nhưng biết khi nào nên sử dụng công cụ nào đòi hỏi sự phán đoán tinh vi. Biên giới tiếp theo có thể là các mô hình có thể thông minh quyết định khi nào dựa vào khả năng nội tại so với các công cụ bên ngoài dựa trên ngữ cảnh, yêu cầu về độ chính xác và các nguồn lực có sẵn.
Điều chắc chắn là tốc độ cải thiện nhanh chóng tiếp tục làm ngạc nhiên ngay cả những người quan sát sát sao trong lĩnh vực này. Các nhiệm vụ mà chỉ vài tháng trước đây được coi là không thể đối với LLM giờ đây đang được các mô hình mới nhất xử lý một cách đáng tin cậy. Khi chúng ta tiếp tục đẩy ranh giới của những gì các hệ thống này có thể làm, chúng ta có khả năng sẽ thấy nhiều khả năng hơn nữa xuất hiện, thách thức sự hiểu biết của chúng ta về cả trí thông minh nhân tạo và tự nhiên.
Tham khảo: LLMs are getting better at character-level text manipulation