Một đánh giá mới về GPT-5 sử dụng bộ tiêu chuẩn AI y tế MedHELM đã tiết lộ một bức tranh phức tạp về sự tiến bộ và thoái lui, gây ra những cuộc thảo luận sôi nổi về tối ưu hóa mô hình và phương pháp kiểm tra trong cộng đồng AI.
Nghiên cứu đã tích hợp GPT-5 vào MedHELM, một bộ đánh giá AI y tế toàn diện kiểm tra khả năng trên các lĩnh vực tính toán y tế, ghi nhớ thông tin thực tế, phân tích bằng chứng và các biện pháp an toàn. Mặc dù kết quả cho thấy một số cải thiện đáng chú ý, chúng cũng làm nổi bật những lĩnh vực đáng lo ngại nơi mô hình mới nhất dường như đã lùi bước.
Hiệu Suất Mạnh Trong Kiến Thức Y Tế Cốt Lõi
GPT-5 đã thể hiện những lợi thế rõ ràng trong lý luận dựa trên số liệu và khả năng ghi nhớ thông tin thực tế rộng rãi. Mô hình đạt được những kỷ lục mới trên các bộ tiêu chuẩn HeadQA và Medbullets, và có kết quả ngang bằng với thành tích tốt nhất trước đó trên MedCalc-Bench. Những cải thiện này cho thấy GPT-5 có khả năng nâng cao trong việc xử lý các phép tính y tế và truy xuất các sự kiện y tế đã được thiết lập - những năng lực cốt lõi cho bất kỳ hệ thống AI y tế nào.
Tuy nhiên, những cải thiện không phổ biến trên tất cả các nhiệm vụ y tế, dẫn đến những câu hỏi về việc liệu điều này có đại diện cho sự tiến bộ thực sự hay chỉ đơn giản là những lựa chọn tối ưu hóa khác nhau.
Tóm tắt hiệu suất đánh giá y tế của GPT-5:
Danh mục đánh giá | Hiệu suất | Các bài kiểm tra cụ thể |
---|---|---|
Cải thiện | Đạt mức cao mới/ngang bằng | HeadQA , Medbullets , MedCalc-Bench |
Giảm sút | Thoái lui | EHRSQL , RaceBias , MedHallu |
Hiệu quả | Kết quả hỗn hợp | Nhanh hơn với các tác vụ dài, chậm hơn với các truy vấn ngắn |
Những Thoái Lui Đáng Lo Ngại Trong Các Lĩnh Vực Quan Trọng
Đánh giá đã tiết lộ những suy giảm đáng lo ngại trong một số lĩnh vực quan trọng. GPT-5 cho thấy sự thoái lui trong các nhiệm vụ tạo sinh có ràng buộc lược đồ như EHRSQL, lý luận nhạy cảm về công bằng bao gồm các tình huống RaceBias, và không đạt được hiệu suất hàng đầu trong việc ngăn chặn ảo giác trên các bài kiểm tra MedHallu.
Những thoái lui này đặc biệt đáng lo ngại do tầm quan trọng thiết yếu của việc xử lý dữ liệu có cấu trúc và giảm thiểu thiên kiến trong các ứng dụng y tế. Kết quả trái chiều đã khiến một số người dùng đặt câu hỏi về việc liệu GPT-5 có đại diện cho sự tiến bộ thực sự hay tối ưu hóa chi phí với cái giá của một số khả năng nhất định.
Tranh Cãi Về Cấu Hình Và Phương Pháp Kiểm tra
Một phần đáng kể của cuộc thảo luận cộng đồng đã tập trung vào chính phương pháp kiểm tra. Nhiều người dùng lưu ý rằng đánh giá dường như sử dụng cài đặt mặc định thay vì chế độ nỗ lực lý luận cao của GPT-5, điều này có thể ảnh hưởng đáng kể đến hiệu suất. Mô hình cung cấp nhiều cấu hình bao gồm các mức độ nỗ lực lý luận khác nhau và các biến thể chuyên biệt như GPT-5 mini.
Bất kỳ ai nghiêm túc về việc đo lường khả năng mô hình sẽ chọn cấu hình tốt nhất, đặc biệt là trong y học.
Điều này đã gây ra những cuộc tranh luận rộng hơn về cách các mô hình AI nên được đánh giá và liệu các nhà nghiên cứu có đang khám phá đầy đủ các khả năng của hệ thống mới trước khi đưa ra kết luận hay không.
Các biến thể và cấu hình của mô hình GPT-5:
- GPT-5 Standard: Mô hình cơ bản với mức độ suy luận trung bình (mặc định)
- GPT-5 Mini: Phiên bản nhẹ cho các tác vụ đơn giản hơn
- GPT-5 Nano: Phiên bản nhỏ gọn nhất
- Các mức độ nỗ lực suy luận: Có sẵn các cấu hình Cao, Trung bình, Thấp
- Tham số đặc biệt: Các cài đặt nhiệt độ, độ chi tiết và mức độ nỗ lực suy luận ảnh hưởng đến hiệu suất
Trải Nghiệm Người Dùng Thực Tế Rất Khác Nhau
Phản hồi từ cộng đồng tiết lộ những trải nghiệm khác biệt đáng kể với GPT-5 trên các trường hợp sử dụng khác nhau. Trong khi một số người dùng báo cáo những cải thiện đáng kể trong các nhiệm vụ lập trình phức tạp, những người khác mô tả việc gặp phải các vòng lặp chết và các vấn đề hệ thống nơi mô hình thực hiện các hành động không được yêu cầu.
Hiệu suất không nhất quán đã khiến một số chuyên gia y tế chuyển sang các mô hình thay thế như Grok4 cho các truy vấn y tế, nêu ra mối lo ngại về xu hướng trở nên quá thận trọng hoặc mơ hồ của GPT-5 khi thảo luận về các chủ đề y tế.
Sự Đánh Đổi Về Hiệu Quả Gây Ra Câu Hỏi
Đánh giá tìm thấy các mẫu hiệu quả không đồng nhất, với GPT-5 chạy nhanh hơn trên các nhiệm vụ lý luận dài nhưng phải chịu các hình phạt độ trễ trên các truy vấn có cấu trúc ngắn mà không có lợi ích độ chính xác tương ứng. Điều này cho thấy mô hình có thể được tối ưu hóa cho các mẫu sử dụng khác với những người tiền nhiệm.
Những sự đánh đổi về hiệu quả này phù hợp với suy đoán rằng GPT-5 đại diện cho kỹ thuật chi phí thay vì tiến bộ khả năng thuần túy, có thể giải thích tại sao một số khả năng được cải thiện trong khi những khả năng khác lại suy giảm.
Kết quả trái chiều từ đánh giá AI y tế này làm nổi bật sự phức tạp của việc đo lường tiến bộ trong các mô hình ngôn ngữ lớn và nhấn mạnh tầm quan trọng của việc kiểm tra toàn diện trên các tình huống đa dạng trước khi triển khai hệ thống AI trong các ứng dụng quan trọng như chăm sóc sức khỏe.
Tham khảo: From GPT-4 to GPT-5: Measuring Progress in Medical Language Understanding Through MedHELM