Các nhà phát triển kiểm tra khả năng hài hước của các mô hình AI mới nhất với kết quả trái chiều

Nhóm Cộng đồng BigGo
Các nhà phát triển kiểm tra khả năng hài hước của các mô hình AI mới nhất với kết quả trái chiều

Cộng đồng công nghệ đã tích cực kiểm tra liệu các mô hình ngôn ngữ AI mới nhất có thể kể những câu chuyện cười thực sự hài hước hay không, khơi mào một cuộc thảo luận rộng hơn về những hạn chế cơ bản của các hệ thống AI hiện tại. Trong khi một số người dùng báo cáo về những cải tiến khiêm tốn trong các mô hình mới hơn như GPT-5 và Gemini 2.5, kết quả vẫn phần lớn đáng thất vọng đối với những ai tìm kiếm khiếu hài hước ở mức độ con người.

Kiểm tra thực tế cho thấy tiến bộ dần dần

Các thành viên cộng đồng đã tiến hành các thí nghiệm riêng với nhiều mô hình AI khác nhau. Một người dùng đã kiểm tra ChatGPT-5 với các câu chuyện cười gần đây từ lễ hội hài kịch Edinburgh Fringe, chỉ cho điểm 2 trên 10 cho các phản hồi thực sự hài hước. Tuy nhiên, những người khác lưu ý rằng các mô hình mới hơn như Gemini 2.5 thỉnh thoảng tạo ra nội dung thực sự thú vị và có thể tham gia vào các tình huống hài hước một cách tự nhiên hơn so với các phiên bản cũ hơn.

Việc kiểm tra đã tiết lộ những mô hình thú vị. Khi người dùng cung cấp các lời nhắc chi tiết hơn giải thích lý thuyết đằng sau những câu chuyện cười hay - rằng chúng nên bất ngờ nhưng lại có vẻ tất yếu khi nhìn lại - một số mô hình đã tạo ra kết quả tốt hơn đáng kể. Các lời nhắc đơn giản như kể cho tôi một câu chuyện cười liên tục mang lại kết quả kém trên tất cả các mô hình được kiểm tra.

Kết quả kiểm tra hiệu suất hài kịch của các mô hình AI:

  • ChatGPT-5 với các câu chuyện cười Edinburgh Fringe: tỷ lệ thành công 2/10
  • GPT-4.5: Ghi nhận những cải thiện trong khả năng hài hước
  • Gemini 2.5: Thỉnh thoảng tạo ra tiếng cười thật sự, tương tác tình huống tốt hơn
  • Điều chỉnh nhiệt độ: Cải thiện chất lượng câu chuyện cười không ổn định

Thách thức kiến trúc đằng sau khiếu hài hước của AI

Vấn đề cốt lõi dường như xuất phát từ cách thức các hệ thống AI này được huấn luyện. Các mô hình ngôn ngữ học bằng cách dự đoán từ có khả năng nhất tiếp theo trong một chuỗi, về cơ bản huấn luyện chúng để giảm thiểu những bất ngờ. Điều này tạo ra một căng thẳng cơ bản với khiếu hài hước, vốn dựa vào những bước ngoặt bất ngờ mà bằng cách nào đó lại cảm thấy tất yếu khi được tiết lộ.

Khiếu hài hước chuyên nghiệp, giống như nhiều bài tập sáng tạo khác, tập trung vào việc tạo ra nhiều ý tưởng và lọc qua chúng để tìm ra những ý tưởng tốt nhất hơn là chỉ tạo ra những ý tưởng hay.

Cách tiếp cận huấn luyện này có nghĩa là các hệ thống AI tự nhiên hướng tới những phản hồi phổ biến nhất, ít bất ngờ nhất khi được yêu cầu kể chuyện cười. Chúng có xu hướng tạo ra những gì mà đa số mọi người có thể thấy hơi thú vị thay vì tạo ra những câu chuyện cười thực sự thông minh hoặc độc đáo.

Các Hạn Chế Kỹ Thuật Chính Được Xác Định:

  • Huấn luyện dự đoán token tiếp theo giảm thiểu sự bất ngờ
  • Tinh chỉnh an toàn hạn chế việc chấp nhận rủi ro sáng tạo
  • Xu hướng thiên về hài hước dựa trên sự đồng thuận thay vì tính nguyên bản
  • Khó khăn trong việc cân bằng giữa sự bất ngờ và tính mạch lạc logic

Các tính năng an toàn có thể cản trở hiệu suất hài kịch

Một biến chứng bổ sung đến từ các biện pháp an toàn được tích hợp vào các hệ thống AI thương mại. Những mô hình này được tinh chỉnh để ưu tiên độ chính xác thực tế và tránh nội dung có thể gây khó chịu - những phẩm chất có thể hoạt động ngược lại với việc kể chuyện cười hiệu quả. Nhiều câu chuyện cười thành công dựa vào việc chơi với kỳ vọng, sử dụng trò chơi chữ, hoặc chạm vào các chủ đề mà các hệ thống tập trung vào an toàn có thể tránh.

Một số người dùng lưu ý rằng việc yêu cầu các mô hình AI tăng nhiệt độ (cho phép các lựa chọn từ bất ngờ hơn) hoặc sử dụng các kỹ thuật nhắc nhở thử nghiệm hơn có thể mang lại kết quả hài hước tốt hơn, mặc dù điều này vẫn không nhất quán.

Nhìn về tương lai: Các cách tiếp cận lai có thể mang lại triển vọng

Cuộc thảo luận đã dẫn đến suy đoán về các kiến trúc AI tương lai có thể xử lý tốt hơn các nhiệm vụ sáng tạo đòi hỏi sự bất ngờ có kiểm soát. Thay vì chỉ mở rộng quy mô các mô hình ngôn ngữ hiện tại, các nhà nghiên cứu có thể cần phát triển các hệ thống lai có thể cố ý tìm kiếm các loại bất ngờ phù hợp trong khi duy trì tính mạch lạc.

Hiện tại, sự đồng thuận giữa các người kiểm tra cho thấy rằng trong khi khả năng hài hước của AI đang từ từ cải thiện với mỗi thế hệ mô hình, chúng vẫn còn xa mới sánh được với các diễn viên hài con người. Các mô hình cho thấy triển vọng hơn như các công cụ động não cho các diễn viên hài con người thay vì như các nguồn giải trí độc lập.

Tham khảo: LLMs generate slop because they avoid surprises by design