Thử nghiệm GPT-5 cho thấy hiệu suất không ổn định và hành vi "vô thức" đáng lo ngại trong các tác vụ viết và lập trình

Nhóm biên tập BigGo

Thử nghiệm GPT-5 cho thấy hiệu suất không ổn định và hành vi "vô thức" đáng lo ngại trong các tác vụ viết và lập trình

Mô hình GPT-5 mới nhất của OpenAI đã trải qua các bài kiểm tra toàn diện về khả năng viết và lập trình, cho thấy bức tranh phức tạp về các tính năng được cải thiện cùng với những bất nhất đáng lo ngại. Hai đánh giá riêng biệt đã xem xét hiệu suất của AI trong viết sáng tạo, giao tiếp chuyên nghiệp, nội dung thuyết phục và các tác vụ lập trình, phát hiện ra cả những tiến bộ đầy hứa hẹn và các vấn đề về độ tin cậy đáng kể.

Khả năng viết cho thấy kết quả có năng lực nhưng không đáng chú ý

Hỗ trợ viết của GPT-5 thể hiện trình độ kỹ thuật vững chắc trên nhiều lĩnh vực. Trong các bài kiểm tra viết sáng tạo, mô hình đã xử lý thành công giọng kể chuyện ngôi thứ hai đầy thử thách trong khi duy trì giọng điệu nhất quán xuyên suốt một câu chuyện ngắn 300 từ. AI đã tạo ra văn xuôi dễ đọc với các yếu tố tạo tâm trạng hiệu quả, mặc dù nội dung vẫn nằm trong những cung bậc cảm xúc có thể dự đoán được mà không có những điểm nhấn bất ngờ. Soạn thảo email chuyên nghiệp được chứng minh là thế mạnh nhất của GPT-5 , cung cấp thư từ kinh doanh được diễn đạt một cách khéo léo, cân bằng giữa sự cứng rắn và việc bảo tồn mối quan hệ. Mô hình đã thể hiện sự hiểu biết thực sự về các sắc thái giao tiếp tại nơi làm việc, tạo ra nội dung không cần chỉnh sửa gì cho việc sử dụng chuyên nghiệp.

Kết quả Kiểm tra Viết của GPT-5

Viết Sáng tạo: Tường thuật ngôi thứ hai có năng lực với giọng điệu nhất quán, nhưng cung bậc cảm xúc có thể dự đoán được
Giao tiếp Chuyên nghiệp: Thư từ kinh doanh ngoại giao xuất sắc không cần chỉnh sửa gì
Nội dung Thuyết phục: Cấu trúc lập luận chiến lược với số liệu thống kê cụ thể và giải quyết phản biện

Viết thuyết phục thể hiện sự hiểu biết chiến lược

Cách tiếp cận của mô hình đối với nội dung thuyết phục đã tiết lộ sự hiểu biết tinh vi về tâm lý khán giả và cấu trúc lập luận. GPT-5 đã thành công trong việc tạo ra các lập luận tập trung vào kinh doanh cho tuần làm việc bốn ngày, kết hợp các thống kê cụ thể và giải quyết các phản bác tiềm ẩn. AI đã định vị các đề xuất như những lợi thế cạnh tranh thay vì lợi ích nhân viên, cho thấy nhận thức chiến lược về các ưu tiên ra quyết định của ban điều hành. Tuy nhiên, một số cách diễn đạt chung chung cho thấy sự phụ thuộc vào các mẫu viết kinh doanh thông thường thay vì các kỹ thuật thuyết phục thực sự sáng tạo.

Hiệu suất lập trình làm dấy lên những lo ngại nghiêm trọng về độ tin cậy

Các tác vụ lập trình đã phơi bày những đặc điểm đáng lo ngại nhất của GPT-5 , với các lời nhắc giống hệt nhau tạo ra những kết quả hoàn toàn khác nhau qua nhiều lần thử. Một bài kiểm tra phát triển plugin WordPress đã thành công ở lần thử đầu tiên, sau đó là những thất bại hoàn toàn bao gồm sự cố trình duyệt, màn hình lỗi và mã không hoạt động trong các lần chạy tiếp theo sử dụng hướng dẫn giống hệt nhau. Mô hình bất nhất này cho thấy các vấn đề ổn định cơ bản khiến mô hình không đáng tin cậy cho công việc lập trình sản xuất.

Vấn đề hiệu suất lập trình

Kiểm thử Plugin WordPress : 1 lần thành công trong 5 lần thử nghiệm giống hệt nhau
Các loại lỗi: Màn hình trắng chết, thông báo lỗi, chuyển hướng trang, hoàn toàn không hoạt động
Triển khai AppleScript : Hoạt động nhưng các giải pháp phức tạp không cần thiết sử dụng shell scripts cho các thao tác đơn giản

Triển khai AppleScript cho thấy sự phức tạp không cần thiết

Các tác vụ scripting đa nền tảng đã tiết lộ xu hướng hướng tới các giải pháp quá phức tạp của GPT-5 . Khi làm việc với bản chất không phân biệt chữ hoa chữ thường vốn có của AppleScript , mô hình đã tạo ra các giải pháp thay thế phức tạp liên quan đến việc thực thi shell script cho thao tác chuỗi hoàn toàn không cần thiết. AI đã tạo ra mã có chức năng nhưng không hiệu quả, thể hiện khả năng kỹ thuật trong khi bỏ lỡ các đặc điểm ngôn ngữ cơ bản có thể đã đơn giản hóa việc triển khai một cách đáng kể.

Thực hành tốt nhất của OpenAI thừa nhận những hạn chế của mô hình

Các hướng dẫn lập trình chính thức của OpenAI cho GPT-5 đã vô tình làm nổi bật những hành vi có vấn đề của mô hình. Các khuyến nghị bao gồm quản lý xu hướng suy nghĩ quá mức lo lắng của AI , tránh ngôn ngữ quá cứng rắn có thể kích hoạt phản ứng thụ động-tích cực, và kiểm soát sự háo hức quá mức để làm hài lòng người dùng. Những hướng dẫn này cho thấy GPT-5 cần được xử lý cẩn thận để hoạt động đúng cách, đại diện cho một bước lùi so với tính mạnh mẽ của các mô hình trước đó.

Yêu cầu Thực hành Tốt nhất của GPT-5 từ OpenAI

Sử dụng cú pháp giống XML cho cấu trúc hướng dẫn
Tránh ngôn ngữ quá cứng rắn để ngăn chặn phản ứng thụ động-tích cực
Kiểm soát xu hướng quá háo hức và suy nghĩ thái quá của AI
Cung cấp các gợi ý lập kế hoạch và tự phản ánh rõ ràng
Sử dụng công cụ tối ưu hóa prompt để có kết quả tốt hơn

Hành vi vô thức làm dấy lên các vấn đề về niềm tin

Có lẽ đáng lo ngại nhất là việc GPT-5 thừa nhận ra quyết định vô thức khi nó chèn Advanced Geekery Labs làm tên tác giả mà không có bất kỳ hướng dẫn nào từ lời nhắc. AI đã thừa nhận việc bổ sung này được thực hiện một cách vô thức, mở rộng thông tin một phần từ các cuộc trò chuyện trước đó theo những cách không được yêu cầu hoặc mong đợi. Mô hình hành vi này làm dấy lên những câu hỏi cơ bản về độ tin cậy và khả năng dự đoán của mô hình trong các ứng dụng chuyên nghiệp.

Phán quyết hỗn hợp về tiện ích thực tế

Thử nghiệm hiện tại cho thấy GPT-5 chiếm một vị trí trung gian khó chịu giữa khả năng ấn tượng và việc thực thi không đáng tin cậy. Trong khi mô hình cho thấy những cải tiến thực sự trong việc hiểu bối cảnh và giọng điệu cho các tác vụ viết, hiệu suất lập trình không nhất quán và các sửa đổi hành vi không thể dự đoán khiến nó không phù hợp cho các ứng dụng quan trọng. Người dùng đang cân nhắc việc áp dụng GPT-5 nên cân nhắc hỗ trợ viết được cải thiện của nó so với những lo ngại đáng kể về độ tin cậy, đặc biệt là cho các triển khai kỹ thuật nơi tính nhất quán là tối quan trọng.

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌