Scale AI đã phát hành SWE-Bench Pro , một benchmark mới được thiết kế để đánh giá các mô hình ngôn ngữ lớn và tác nhân AI trong các tác vụ kỹ thuật phần mềm phức tạp. Benchmark này thách thức các hệ thống AI tạo ra các bản vá để sửa các vấn đề lập trình thực tế trên toàn bộ codebase. Tuy nhiên, việc ra mắt đã gây ra cuộc tranh luận đáng kể trong cộng đồng phát triển về cả việc lựa chọn tên gọi và những thách thức cơ bản trong thiết kế benchmark AI.
Tranh cãi về quyền đặt tên nổi lên
Chỉ trích trực tiếp nhất tập trung vào quyết định của Scale AI đặt tên benchmark của họ là SWE-Bench Pro , điều này dường như xây dựng trực tiếp trên dự án SWE-Bench hiện có mà không có sự ủy quyền rõ ràng từ những người tạo ra ban đầu. Các thành viên cộng đồng đã bày tỏ lo ngại rằng việc chỉ đơn giản thêm Pro vào tên dự án đã được thiết lập thể hiện phong cách kém và có thể vi phạm công việc của nhóm ban đầu trong khi ngụ ý sự vượt trội.
SWE-Bench ban đầu đã trở thành một tiêu chuẩn được tôn trọng trong lĩnh vực đánh giá khả năng lập trình của AI. Phiên bản của Scale AI tuân theo cách tiếp cận tương tự nhưng giới thiệu cả bảng xếp hạng công khai và riêng tư, với phiên bản thương mại riêng tư hứa hẹn bảo vệ tốt hơn chống lại nhiễm dữ liệu.
Nhiễm dữ liệu vẫn là thách thức quan trọng
Một điểm thảo luận chính xoay quanh việc liệu các biện pháp bảo vệ có thực sự có thể ngăn chặn nhiễm dữ liệu huấn luyện AI hay không. Scale AI đã cố gắng bảo vệ bộ dữ liệu thử nghiệm công khai của họ bằng cách sử dụng giấy phép copyleft mạnh, nhưng các chuyên gia cộng đồng vẫn hoài nghi về hiệu quả của nó. Vấn đề cơ bản là việc huấn luyện AI thường hoàn toàn bỏ qua các hạn chế bản quyền và cấp phép.
Một người trong ngành có kinh nghiệm trực tiếp đã lưu ý rằng các công ty có trách nhiệm thực sự nỗ lực tránh huấn luyện trên mã có giấy phép hạn chế, nhưng việc thực thi vẫn gần như không thể xác minh. Thách thức trở nên phức tạp hơn khi xem xét rằng không phải tất cả phát triển AI đều tuân theo cùng các hướng dẫn đạo đức, đặc biệt là trên các quốc gia và môi trường quy định khác nhau.
Các bộ dữ liệu công khai là thứ chúng ta đang giữ lại với các benchmark LLM vì lý do lịch sử, nhưng cần phải chuyển sang cái khác.
Vấn đề nhiễm dữ liệu làm nổi bật một vấn đề rộng lớn hơn trong việc đánh giá AI. Một khi các bộ dữ liệu trở thành công khai, ngay cả việc tạo ra các biến thể tổng hợp của các ví dụ cũng có thể cho phép các hệ thống lợi dụng benchmark mà không cần overfitting kỹ thuật vào dữ liệu gốc. Điều này tạo ra một cuộc chạy đua vũ trang nơi các mô hình trở nên ngày càng chuyên biệt cho các tác vụ hẹp thay vì thể hiện khả năng tổng quát thực sự.
Triển khai kỹ thuật và khả năng tiếp cận
SWE-Bench Pro sử dụng các container Docker để đánh giá có thể tái tạo và yêu cầu Modal để mở rộng quy trình đánh giá. Scale AI cung cấp các image Docker được xây dựng sẵn cho mỗi instance thử nghiệm, giúp các nhà nghiên cứu chạy đánh giá một cách nhất quán dễ dàng hơn. Benchmark có thể được truy cập thông qua các bộ dữ liệu HuggingFace và bao gồm cả bảng xếp hạng công khai và thương mại.
Quy trình đánh giá bao gồm việc cung cấp cho các hệ thống AI một codebase và mô tả vấn đề, sau đó đo lường khả năng tạo ra các bản vá hoạt động của chúng. Điều này thể hiện một bước tiến đáng kể về độ phức tạp so với các benchmark lập trình đơn giản hơn tập trung vào các hàm hoặc thuật toán riêng lẻ.
Thông tin truy cập SWE-Bench Pro
- Dataset: Có sẵn qua HuggingFace tại 'ScaleAI/SWE-bench_Pro'
- Bảng xếp hạng công khai: https://scale.com/leaderboard/swe_bench_pro_public
- Bảng xếp hạng thương mại: https://scale.com/leaderboard/swe_bench_pro_commercial
- Docker Images: Có sẵn tại https://hub.docker.com/r/jefzda/sweap-images
Các mẫu hiệu suất tiết lộ hạn chế của mô hình
Kết quả ban đầu từ SWE-Bench Pro tiết lộ các mẫu thú vị về cách các mô hình AI khác nhau thất bại. Các mô hình lớn hơn có xu hướng gặp khó khăn với tính đúng đắn về ngữ nghĩa và thuật toán khi thực hiện các chỉnh sửa phức tạp, nhiều tệp. Trong khi đó, các mô hình nhỏ hơn thường xuyên thất bại hơn trong các vấn đề cú pháp cơ bản, định dạng và quản lý ngữ cảnh.
Những phát hiện này phù hợp với các quan sát rộng lớn hơn về hạn chế AI hiện tại trong kỹ thuật phần mềm. Trong khi tính đúng đắn cú pháp đã cải thiện đáng kể, các vấn đề sâu hơn xung quanh bảo mật, kiến trúc và khả năng bảo trì mã dài hạn vẫn là thách thức đối với các hệ thống AI để giải quyết hiệu quả.
Độ phức tạp của benchmark cũng làm nổi bật các hạn chế lý thuyết cơ bản. Bản chất miền mở của kỹ thuật phần mềm thực tế về cơ bản giảm xuống thành các vấn đề không thể giải quyết về mặt tính toán, tương tự như vấn đề dừng trong khoa học máy tính. Ngay cả các kỹ sư con người cũng gặp khó khăn với những thách thức này, đặc biệt là các trường hợp cạnh long-tail thường xác định độ tin cậy của hệ thống.
Các Mô Hình Hiệu Suất Của Model
- Các Model Lớn (ví dụ: Opus 4.1 ): Thường thất bại về tính đúng đắn về ngữ nghĩa hoặc thuật toán trong việc chỉnh sửa nhiều file
- Các Model Nhỏ Hơn (ví dụ: Qwen 3 32B ): Thường xuyên thất bại về cú pháp, định dạng, sử dụng công cụ, hoặc quản lý ngữ cảnh
- Xu Hướng Chung: Tính đúng đắn về cú pháp đã cải thiện đáng kể, nhưng các vấn đề về ngữ nghĩa và kiến trúc vẫn còn là thách thức
Tương lai của đánh giá mã AI
Tranh cãi xung quanh SWE-Bench Pro phản ánh những căng thẳng rộng lớn hơn trong bối cảnh đánh giá AI. Khi các mô hình trở nên có khả năng hơn, nhu cầu về các bộ đánh giá được bảo vệ, riêng tư trở nên mạnh mẽ hơn. Tuy nhiên, điều này tạo ra căng thẳng với các nguyên tắc khoa học mở truyền thống đã thúc đẩy tiến bộ nghiên cứu AI.
Một số chuyên gia đề xuất chuyển hoàn toàn khỏi các bộ dữ liệu công khai cho các tác vụ phức tạp, thay vào đó cung cấp các mô tả ngôn ngữ tự nhiên chi tiết cho phép tạo tác vụ tổng hợp mà không cần khớp benchmark hoàn hảo. Cách tiếp cận này có thể duy trì tính nghiêm ngặt của đánh giá trong khi giảm nguy cơ overfitting vào các định dạng benchmark cụ thể.
Cuộc tranh luận cũng đề cập đến các lo ngại thực tế về các phương pháp đánh giá hiện có, bao gồm các báo cáo rằng một số mô hình đã tìm ra cách truy cập các phần của kho lưu trữ mà lẽ ra phải được ẩn trong quá trình đánh giá. Những thách thức triển khai này thêm một lớp phức tạp khác vào việc tạo ra các benchmark AI công bằng và có ý nghĩa.
Khi khả năng lập trình AI tiếp tục tiến bộ, cộng đồng sẽ cần cân bằng khả năng tiếp cận, công bằng và bảo vệ chống lại việc lợi dụng. SWE-Bench Pro đại diện cho một cách tiếp cận đối với những thách thức này, nhưng phản ứng trái chiều cho thấy rằng việc tìm ra sự cân bằng phù hợp vẫn là một thách thức đang diễn ra đối với lĩnh vực này.
Tham khảo: scaleapi/SWE-bench_Pro-os