Điểm số 71.2% của Qodo Command trên SWE-bench gây tranh cãi về việc lách luật benchmark so với hiệu suất thực tế

Nhóm Cộng đồng BigGo
Điểm số 71.2% của Qodo Command trên SWE-bench gây tranh cãi về việc lách luật benchmark so với hiệu suất thực tế

Thành tích gần đây của Qodo Command với 71.2% trên SWE-bench Verified đã châm ngòi cho một cuộc thảo luận sôi nổi trong cộng đồng lập trình viên về tính toàn vẹn của các benchmark AI coding. Mặc dù điểm số này đưa Qodo vào top 5 toàn cầu, câu chuyện thực sự nằm ở cách các công ty khác nhau tiếp cận những đánh giá này.

Những nhà dẫn đầu được xác minh trên SWE-bench:

  • Refact: 74.4% (với framework tùy chỉnh 2,000 dòng)
  • Qodo Command: 71.2% (phiên bản sản xuất, không có sửa đổi)
  • Claude Sonnet 4: ~72.2% (bài nộp của Anthropic)
  • SWE-bench Multilingual tốt nhất: ~43% (Claude 3.7 Sonnet)

Vấn đề lách luật Benchmark

Cộng đồng công nghệ đang nêu lên những lo ngại nghiêm trọng về cách các bài nộp hàng đầu đạt được điểm số cao. Một số mục trong danh sách dẫn đầu SWE-bench có hiệu suất tốt nhất thậm chí không chạy các sản phẩm sẵn sàng cho sản xuất. Thay vào đó, họ đã xây dựng các framework thử nghiệm phức tạp được thiết kế đặc biệt để lách luật kết quả benchmark.

Lấy Refact làm ví dụ, hiện đang xếp thứ hai với 74.4%. Họ đã xây dựng một framework code 2,000 dòng chỉ dành riêng cho SWE-bench, hoàn chỉnh với nhiều agent và cơ chế thử lại tinh vi. Khi agent chính thất bại, một debug agent sẽ phân tích lỗi và cung cấp thông tin chi tiết cho một lần thử khác. Cách tiếp cận này thực sự cho phép nhiều lần thử với mỗi vấn đề trong khi về mặt kỹ thuật vẫn tuyên bố đó là một lần thử duy nhất.

Xây dựng nhiều lần thử vào agent của bạn là đang kéo dãn luật chơi, ngay cả khi về mặt kỹ thuật nó có thể chấp nhận được.

Thực hành này minh họa cho Định luật Goodhart - khi một thước đo trở thành mục tiêu, nó mất giá trị như một thước đo. Benchmark được thiết kế để kiểm tra khả năng coding trong thế giới thực, nhưng các công ty hiện đang tối ưu hóa cụ thể cho bài kiểm tra thay vì cho các nhiệm vụ kỹ thuật phần mềm thực tế.

Giải pháp Production so với Benchmark-Specific

Điều khiến cách tiếp cận của Qodo đáng chú ý không chỉ là điểm số, mà là cách họ đạt được nó. Không giống như các đối thủ xây dựng scaffolding tùy chỉnh, Qodo tuyên bố họ đã sử dụng production CLI agent của mình chính xác như cách khách hàng sẽ cài đặt nó - với một lệnh npm đơn giản. Không có tuning đặc biệt, không có sửa đổi cụ thể cho benchmark, chỉ là sản phẩm nguyên bản.

Sự khác biệt này có ý nghĩa rất lớn đối với các lập trình viên đang cân nhắc những công cụ này. Một hệ thống được tối ưu hóa cho benchmark có điểm 75% có thể hoạt động kém trong các tình huống thực tế, trong khi một hệ thống production có điểm 71% có thể mang lại kết quả nhất quán qua nhiều nhiệm vụ coding khác nhau.

Cộng đồng đặc biệt quan tâm đến các hạn chế về độ dài ngữ cảnh và hệ thống truy xuất. Các vấn đề SWE-bench có thể liên quan đến các codebase khổng lồ, và cách một agent xử lý việc lựa chọn ngữ cảnh thường quyết định thành công. Một số hệ thống lách luật điều này bằng cách sử dụng các cơ chế truy xuất tinh vi được xây dựng chỉ cho benchmark, thay vì các giải pháp thực tế mà lập trình viên thực sự sẽ sử dụng.

Tính năng Kiến trúc Qodo Command:

  • Tóm tắt Ngữ cảnh: Chưng cất các codebase đa tệp thành các bản tóm tắt có cấu trúc
  • Lập kế hoạch Thực thi: Phương pháp "lập kế hoạch trước" với việc phân tách mục tiêu có cấu trúc
  • Cơ chế Thử lại: Tối đa 3 lần thử lại với chẩn đoán lỗi thông minh
  • Framework LangGraph : Hệ thống điều phối dựa trên đồ thị, có tính mô-đun
  • Công cụ Agent: Các thao tác hệ thống tệp, thực thi shell, tìm kiếm Raggap , tư duy tuần tự

Lời kêu gọi xác minh độc lập

Sự thất vọng với các benchmark có thể gây hiểu lầm đã dẫn đến lời kêu gọi các cơ quan kiểm tra độc lập. Các thành viên cộng đồng đề xuất thiết lập các tiêu chuẩn quốc tế cho đánh giá AI coding, tương tự như cách các ngành công nghiệp khác xử lý kiểm tra hiệu suất. Hệ thống hiện tại phụ thuộc quá nhiều vào kết quả tự báo cáo từ các công ty có động cơ tài chính rõ ràng để thổi phồng điểm số của họ.

Các cách tiếp cận thay thế như LiveBench, phát hành các bài kiểm tra mới thường xuyên để ngăn chặn overfitting, đang nhận được sự chú ý. Cũng có sự quan tâm ngày càng tăng đối với các benchmark đa ngôn ngữ, vì SWE-bench Verified chỉ tập trung vào các vấn đề Python. Hiệu suất đa ngôn ngữ tốt nhất hiện tại nằm ở khoảng 43%, cho thấy còn bao nhiêu chỗ để cải thiện trong các tình huống coding thực tế, đa dạng.

Cài đặt và Tính khả dụng:

  • Cài đặt: npm install -g @qodocommand
  • Hỗ trợ Model: Tất cả các LLM hàng đầu, được tối ưu hóa cho Claude
  • Đối tác: Giải pháp "Powered by Claude" với Anthropic
  • Tích hợp UI: Bao gồm Qodo Merge cho quy trình review code

Nhìn xa hơn những con số

Cuộc tranh luận tiết lộ một căng thẳng cơ bản trong phát triển AI. Các công ty cần các chỉ số để chứng minh tiến bộ và thu hút khách hàng, nhưng tối ưu hóa cho các benchmark cụ thể có thể tạo ra các sản phẩm xuất sắc trong các tình huống kiểm tra hẹp trong khi thất bại trong các ứng dụng thực tế.

Đối với các lập trình viên đánh giá công cụ AI coding, bài học rõ ràng: hãy nhìn xa hơn điểm số benchmark tiêu đề. Hãy cân nhắc liệu cách tiếp cận kiểm tra có phản ánh quy trình làm việc thực tế của bạn hay không, liệu công cụ có xử lý các ngôn ngữ lập trình và loại dự án của bạn hay không, và quan trọng nhất, liệu hiệu suất benchmark có chuyển đổi thành lợi ích năng suất trong môi trường cụ thể của bạn hay không.

Khi không gian AI coding trưởng thành, việc cộng đồng thúc đẩy các phương pháp đánh giá trung thực, thực tế hơn có thể sẽ định hình lại cách những công cụ này được phát triển và tiếp thị. Những người chiến thắng thực sự sẽ là các công ty tập trung vào giải quyết các vấn đề thực sự của lập trình viên thay vì lách luật các chỉ số nhân tạo.

Tham khảo: Qodo Command scores 71.2% on SWE-bench Verified