Cộng đồng đặt câu hỏi về tính hợp lệ của các tuyên bố kỹ thuật prompt engineering cho GPT-5-mini do thiếu minh bạch

Nhóm Cộng đồng BigGo

Cộng đồng đặt câu hỏi về tính hợp lệ của các tuyên bố kỹ thuật prompt engineering cho GPT-5-mini do thiếu minh bạch

Một bài blog gần đây tuyên bố đạt được cải thiện hiệu suất 22% cho GPT-5-mini thông qua việc viết lại prompt đã gây ra tranh luận trong cộng đồng công nghệ, với nhiều nhà phát triển đặt câu hỏi về tính hợp lệ của kết quả do thiếu các chi tiết quan trọng.

Bài viết gốc mô tả cách các nhà nghiên cứu sử dụng Claude để viết lại prompt cho GPT-5-mini, biến đổi các tài liệu chính sách dài dòng thành hướng dẫn từng bước rõ ràng. Những thay đổi này được báo cáo là đã cải thiện tỷ lệ thành công của mô hình từ 55% lên 67.5% trên các nhiệm vụ benchmark viễn thông. Tuy nhiên, phản ứng của cộng đồng đã rất hoài nghi.

Cải thiện hiệu suất được tuyên bố:

Tỷ lệ thành công cơ bản của GPT-5-mini: 55%
Sau tối ưu hóa prompt: 67.5% (cải thiện 22.73%)
Chỉ số k:2 được cải thiện từ 40% lên 50% (cải thiện 25%)
Giảm các tác vụ không thể giải quyết từ 6 xuống 3 trong tổng số 20 kịch bản thử nghiệm


Thiết kế logo chuyên nghiệp của Quesma , liên kết đến bài đăng blog đã gây ra cuộc tranh luận về các tuyên bố hiệu suất của GPT-5-mini

Thiếu chi tiết quan trọng làm suy yếu các tuyên bố

Lời chỉ trích quan trọng nhất tập trung vào việc thiếu minh bạch. Các thành viên cộng đồng đang yêu cầu được xem các prompt thực tế được sử dụng trong thí nghiệm, cả trước và sau khi Claude chỉnh sửa. Nếu không có những ví dụ này, việc xác minh liệu những cải thiện có đến từ kỹ thuật prompt engineering tốt hơn hay chỉ đơn giản là sửa chữa các prompt gốc được viết kém trở nên bất khả thi.

Một người bình luận chỉ ra rằng nhiều cải tiến được đề xuất - như sử dụng cây quyết định rõ ràng, điều kiện nhị phân và lệnh mệnh lệnh - đã là những thực hành prompt engineering được thiết lập tốt. Điều này đặt ra câu hỏi liệu các prompt gốc có đơn giản là không đạt tiêu chuẩn ngay từ đầu.

Các Danh Mục Tối Ưu Hóa Prompt Chính:

Cấu Trúc & Luồng: Cây quyết định, các bước tuần tự, kiểm tra điều kiện tiên quyết
Tối Ưu Hóa AI Agent: Độ rõ ràng trong lời gọi công cụ, quyết định nhị phân, xử lý lỗi
Giảm Tải Nhận Thức: Bảng tham chiếu, nhận dạng mẫu, lời nhắc quan trọng
Ngôn Ngữ Hành Động: Lệnh mệnh lệnh, quy trình làm việc tổng hợp, xác minh tức thì

Lo ngại về rò rỉ thông tin

Một quan sát đặc biệt sắc sảo từ cộng đồng liên quan đến khả năng rò rỉ thông tin. Khi Claude viết lại prompt, nó có thể vô tình giải quyết một số nhiệm vụ benchmark và chèn các gợi ý tinh tế về cách tiếp cận. Điều này có thể làm tăng điểm hiệu suất một cách giả tạo, khiến kết quả ít ý nghĩa hơn so với vẻ ngoài.

Sự phân biệt giữa việc viết lại hướng dẫn chung so với các tuyên bố cụ thể cho nhiệm vụ trở nên quan trọng ở đây. Nếu Claude chỉ sửa đổi định dạng và cấu trúc chung, kết quả có thể hợp pháp hơn so với việc nó chạm vào các mô tả nhiệm vụ cốt lõi.

Thách thức triển khai thực tế

Ngoài các mối quan tâm về xác thực, các nhà phát triển đang đặt câu hỏi về giá trị thực tế của cách tiếp cận này. Việc sử dụng Claude để viết lại prompt tạo thêm chi phí tính toán có thể làm mất đi lợi ích về tốc độ và chi phí của việc sử dụng GPT-5-mini ngay từ đầu. Mặc dù điều này có thể hoạt động cho các prompt hệ thống tĩnh, nó trở thành vấn đề đối với các tương tác người dùng động.

Vấn đề duy nhất là tôi cảm thấy việc phải có Claude viết lại prompt sẽ làm mất đi một số lợi ích về hiệu quả và độ trễ của việc sử dụng mini.

Một số người đề xuất rằng GPT-5-mini có thể có khả năng xử lý việc định dạng lại prompt nội bộ, có khả năng cung cấp một giải pháp hiệu quả hơn.


Một biểu đồ cột hiển thị độ chính xác của các mô hình AI khác nhau trong nhiều lĩnh vực, làm nổi bật việc đánh giá hiệu suất của GPT-5-mini

Các công cụ đã thiết lập đã giải quyết những vấn đề này

Một số thành viên cộng đồng lưu ý rằng loại tối ưu hóa prompt này không phải là lãnh thổ mới. Các công cụ như DSPy đã giải quyết những thách thức tương tự trong lập trình LLM trong một thời gian, mặc dù chúng vẫn chưa được sử dụng đầy đủ trong cộng đồng phát triển rộng lớn hơn.

Cuộc thảo luận tiết lộ một mô hình phổ biến nơi các bài blog cá nhân tái khám phá các kỹ thuật mà các nhà nghiên cứu học thuật đã khám phá và chính thức hóa. Điều này làm nổi bật khoảng cách giữa nghiên cứu tiên tiến và triển khai thực tế trong lĩnh vực này.

So sánh hiệu suất mô hình trên bộ đánh giá Telecom:

GPT-5 (flagship): ~97% tỷ lệ thành công
GPT-5-mini (tối ưu hóa): 67.5% tỷ lệ thành công
o3: 58% tỷ lệ thành công
GPT-5-mini (baseline): 55% tỷ lệ thành công
GPT-4: 34% tỷ lệ thành công

Kết luận

Mặc dù ý tưởng cốt lõi về tối ưu hóa prompt cho các mô hình nhỏ hơn có giá trị, phản ứng hoài nghi của cộng đồng nhấn mạnh tầm quan trọng của minh bạch trong các tuyên bố nghiên cứu AI. Nếu không có quyền truy cập vào các prompt thực tế và phương pháp rõ ràng hơn, việc tách biệt những hiểu biết thực sự khỏi thiết kế thí nghiệm có thể có lỗi trở nên khó khăn.

Cuộc tranh luận đóng vai trò như một lời nhắc nhở rằng các tuyên bố phi thường đòi hỏi bằng chứng phi thường, đặc biệt trong một lĩnh vực nơi những thay đổi nhỏ có thể tác động đáng kể đến kết quả. Đối với các nhà phát triển quan tâm đến tối ưu hóa prompt, các framework đã thiết lập như DSPy có thể cung cấp các cách tiếp cận đáng tin cậy hơn so với các thí nghiệm viết lại tùy ý.

Tham khảo: Tau² Benchmark: How a Prompt Rewrite Boosted GPT-5-mini by 22%

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌