Một nhà phát triển đã nêu lên những lo ngại nghiêm trọng về tính ổn định của các mô hình ngôn ngữ OpenAI trên Azure, cho rằng những câu lệnh giống hệt nhau đang tạo ra kết quả ngày càng tệ hơn theo thời gian. Nhà phát triển này, người đã thử nghiệm hệ thống của họ trong sáu tháng với các điều kiện được kiểm soát, báo cáo rằng hiệu suất của mô hình đã suy giảm đáng kể mà không có bất kỳ thay đổi nào đối với mã hoặc câu lệnh của họ.
Thử nghiệm có hệ thống cho thấy hiệu suất suy giảm
Nhà phát triển đã triển khai một hệ thống thử nghiệm nghiêm ngặt sử dụng các tin nhắn giống hệt nhau với cài đặt nhiệt độ bằng không để đảm bảo phản hồi nhất quán. Cách tiếp cận này về mặt lý thuyết sẽ tạo ra các kết quả đầu ra gần như giống hệt nhau mỗi lần. Tuy nhiên, dữ liệu của họ cho thấy độ chính xác của GPT-4o-mini đã xấu đi một cách đáng chú ý kể từ khi phát hành GPT-5, trong khi các mô hình GPT-5 mới hơn, mặc dù ban đầu hoạt động tốt hơn, lại gặp vấn đề nghiêm trọng về tốc độ với thời gian phản hồi lên đến 20 giây.
Cuộc thảo luận cộng đồng cho thấy đây không phải là một sự cố riêng lẻ. Nhiều người dùng báo cáo những trải nghiệm tương tự trên các nhà cung cấp AI khác nhau, bao gồm Gemini của Google và Claude của Anthropic. Một số nhà phát triển đã phải bỏ qua hoàn toàn các bản cập nhật mô hình vì các phiên bản mới hơn không thể hoàn thành các tác vụ mà các phiên bản trước đó đã xử lý thành công.
Các Vấn Đề Hiệu Suất Được Báo Cáo:
- GPT-4o-mini : Độ chính xác giảm sút sau khi GPT-5 ra mắt
- Các mô hình GPT-5 : Độ chính xác tốt hơn nhưng thời gian phản hồi lên đến 20 giây
- Phương pháp kiểm tra: Các câu lệnh giống hệt nhau với nhiệt độ 0 trong 6 tháng
- Mô hình suy giảm nhất quán được quan sát thấy trên nhiều nhà cung cấp AI
Những thay đổi ẩn sau hậu trường
Một số giải thích kỹ thuật đã xuất hiện từ cuộc thảo luận cộng đồng. Lý thuyết nổi bật nhất liên quan đến việc lượng tử hóa - một quá trình nén các mô hình để giảm chi phí tính toán, có thể ảnh hưởng đến độ chính xác. Trong khi OpenAI trước đây đã tuyên bố họ không thay đổi trọng số mô hình sau khi phát hành, các thành viên cộng đồng cho rằng những thay đổi cơ sở hạ tầng, bộ lọc an toàn bổ sung, hoặc câu lệnh hệ thống được sửa đổi có thể thay đổi hiệu quả hành vi mô hình mà không cần thay đổi về mặt kỹ thuật mô hình cốt lõi.
Thật không trung thực khi các công ty nói rằng họ không thay đổi mô hình trong khi thực hiện những tối ưu hóa chi phí như vậy làm suy giảm trí thông minh hiệu quả của các mô hình.
Các lớp an toàn bổ sung của Microsoft cho các mô hình được lưu trữ trên Azure cũng có thể góp phần vào sự khác biệt về hiệu suất so với API trực tiếp của OpenAI. Những lớp xử lý Responsible AI này, mặc dù có giá trị cho các yêu cầu an toàn doanh nghiệp, có thể tạo ra thêm chi phí hoặc lọc ảnh hưởng đến chất lượng đầu ra.
Các nguyên nhân tiềm ẩn được cộng đồng xác định:
- Quantization: Nén mô hình để giảm chi phí tính toán
- Thay đổi hạ tầng: Bất ổn định số học và lỗi tính toán
- Bộ lọc an toàn bổ sung: Các lớp xử lý Responsible AI của Microsoft
- Sửa đổi system prompts: Bổ sung các yêu cầu pháp lý và kinh doanh
- Phân bổ tài nguyên: Ít sức mạnh tính toán hơn được cấp phát cho các mô hình cũ
Xu hướng tăng mạnh hướng tới các mô hình cục bộ
Sự suy giảm chất lượng được báo cáo đang thúc đẩy một số nhà phát triển xem xét lại việc triển khai mô hình cục bộ. Trong khi việc chạy mô hình cục bộ trước đây được coi là đắt đỏ và chậm, việc làm tê liệt các mô hình dựa trên đám mây đang khiến các giải pháp tự lưu trữ trở nên hấp dẫn hơn. Các mô hình cục bộ cung cấp quyền kiểm soát hoàn toàn đối với các phiên bản mô hình và loại bỏ lo ngại về những thay đổi không được tiết lộ đối với hành vi mô hình.
Tình huống này làm nổi bật một thách thức cơ bản trong ngành công nghiệp AI: cân bằng tối ưu hóa chi phí, yêu cầu an toàn và tính nhất quán của hiệu suất. Khi các công ty tìm cách giảm chi phí vận hành trong khi duy trì giá cả cạnh tranh, người dùng lo lắng rằng chất lượng mô hình trở thành biến số ẩn trong phương trình này.
Không có phiên bản minh bạch và giao tiếp rõ ràng về các thay đổi cơ sở hạ tầng, các nhà phát triển phải đối mặt với sự không chắc chắn về tính ổn định của các ứng dụng được hỗ trợ bởi AI của họ. Sự thiếu minh bạch này cuối cùng có thể đẩy nhiều doanh nghiệp hơn hướng tới các giải pháp thay thế mã nguồn mở nơi hành vi mô hình vẫn có thể dự đoán và kiểm tra được.
Tham khảo: The LLM Lobotomy.