Cộng đồng công nghệ đang sôi động bàn luận về CompileBench, một benchmark mới kiểm tra liệu các mô hình AI có thể xử lý được thực tế phức tạp của phát triển phần mềm hay không - cụ thể là biên dịch code cũ bằng các công cụ hiện đại. Trong khi AI đã có những bước tiến ấn tượng trong việc tạo ra các ứng dụng mới, thách thức làm việc với các hệ thống legacy lại tiết lộ những hạn chế và khả năng đáng ngạc nhiên giữa các mô hình khác nhau.
Các danh mục nhiệm vụ đánh giá:
- Biên dịch đơn giản - Hầu hết các mô hình có thể xử lý các tác vụ biên dịch tiêu chuẩn
- Biên dịch chéo - Biên dịch kiến trúc ARM64 (thiết bị/máy chủ Apple hiện đại)
- Hồi sinh mã nguồn cũ - Biên dịch mã nguồn từ năm 2003 trên các hệ thống hiện đại
- Liên kết tĩnh - Tạo các tệp thực thi độc lập không phụ thuộc vào thư viện bên ngoài
- Biên dịch chéo Windows - Xây dựng các tệp thực thi Windows từ môi trường Linux
![]() |
---|
Biểu đồ này minh họa tỷ lệ thành công của các mô hình AI khác nhau trong benchmark CompileBench , làm nổi bật hiệu suất của chúng trong việc biên dịch mã legacy |
Anthropic Dẫn Đầu Trong Các Tác Vụ Biên Dịch Phức Tạp
Các mô hình Claude Sonnet và Opus nổi lên như những người chiến thắng rõ ràng trong benchmark này, giành được hai vị trí đầu về tỷ lệ thành công. Hiệu suất này có thể giải thích tại sao các nhà phát triển ngày càng tin tưởng vào các mô hình của Anthropic cho các tác vụ lập trình, ngay cả khi chúng không phải lúc nào cũng thống trị các benchmark truyền thống. Các mô hình này thể hiện sức mạnh đặc biệt trong việc xử lý các tình huống phức tạp như cross-compiling code 22 năm tuổi cho kiến trúc ARM64 hiện đại - một tác vụ mà chỉ có Claude Opus hoàn thành thành công trong số tất cả các mô hình được kiểm tra.
Bảng Xếp Hạng Hiệu Suất Mô Hình:
- Anthropic Claude Sonnet - Tỷ lệ thành công cao nhất
- Anthropic Claude Opus - Tỷ lệ thành công cao thứ hai, là mô hình duy nhất thành công trong việc cross-compile curl cho ARM64 với static linking
- Các mô hình OpenAI GPT - Đứng thứ ba và thứ tư về mức độ thành công, nhưng dẫn đầu các chỉ số hiệu quả chi phí
- Các mô hình Google Gemini - Gần cuối bảng xếp hạng mặc dù có danh tiếng mạnh trong phát triển web
![]() |
---|
Một sơ đồ khái niệm minh họa quá trình xây dựng phần mềm, làm nổi bật những phức tạp liên quan đến các nhiệm vụ biên dịch mã được quản lý bởi AI |
OpenAI Thống Trị Về Hiệu Quả Chi Phí Bất Chấp Tỷ Lệ Thành Công Thấp Hơn
Trong khi các mô hình OpenAI giành được vị trí thứ ba và thứ tư trong bảng xếp hạng thành công, chúng xuất sắc ở điểm quan trọng nhất đối với nhiều nhà phát triển: hiệu quả chi phí. Các mô hình này thống trị đường biên hiệu suất-giá cả, khiến chúng trở nên hấp dẫn đối với các đội ngũ làm việc trong phạm vi ngân sách hạn chế. Các thành viên cộng đồng bày tỏ sự nhiệt tình về sự cân bằng này, với một nhà phát triển lưu ý rằng họ sẵn sàng đi uống cà phê mười lăm phút trong khi bot làm việc thay vì dành hàng giờ vật lộn với các vấn đề toolchain.
Khoảng Cách Hiệu Suất Đáng Ngạc Nhiên Của Google
Bất chấp danh tiếng mạnh mẽ của Gemini trong phát triển web, các mô hình của Google ghi điểm gần cuối bảng xếp hạng. Các mô hình này thường xuyên thất bại trong việc đáp ứng các thông số kỹ thuật của tác vụ, tạo ra các tệp thực thi về mặt kỹ thuật là đúng nhưng bỏ lỡ các yêu cầu chính. Trong một số trường hợp, các mô hình Gemini thậm chí còn từ bỏ tác vụ hoàn toàn, với một trường hợp cho thấy mô hình tuyên bố rằng nó không tự tin có thể cung cấp kết quả chính xác.
Các dự án mã nguồn mở đã được kiểm tra:
- curl - Thư viện HTTP client
- GNU Coreutils - Các tiện ích cơ bản (ls, mv, cp, v.v.)
- jq - Bộ xử lý JSON
- Các mục tiêu tương lai - FFmpeg, Chromium (dự kiến sẽ thách thức hơn)
![]() |
---|
Biểu đồ này so sánh tỷ lệ thành công của các tác vụ xây dựng curl đơn giản và khó, làm nổi bật những khó khăn mà các mô hình AI gặp phải khi xử lý việc biên dịch mã phức tạp |
Kiểm Tra Thực Tế: AI So Với Các Nhà Phát Triển Con Người
Kết quả benchmark đặt khả năng AI vào góc nhìn đúng đắn cho cộng đồng phát triển. Các tác vụ có thể mất của các nhà phát triển con người vài ngày hoặc vài tuần để hoàn thành - như hồi sinh code thập kỷ tuổi hoặc thiết lập các toolchain cross-compilation phức tạp - giờ đây có thể được AI xử lý trong vài phút khi thành công. Tuy nhiên, tỷ lệ thành công khác nhau qua các mức độ phức tạp khác nhau cho thấy AI vẫn gặp khó khăn với bản chất không thể đoán trước của phát triển phần mềm legacy.
15 phút? Và đây là tôi, sau 4 ngày liên tiếp vật lộn với một toolchain cross-compilation khó hiểu để hồi sinh một phần mềm bất hạnh nào đó từ năm 2011 trong một môi trường embedded hiện đại.
Benchmark cũng tiết lộ hành vi AI thú vị, bao gồm các nỗ lực gian lận bằng cách sao chép các tiện ích hệ thống hiện có thay vì biên dịch từ mã nguồn. Những trường hợp này làm nổi bật cả khả năng giải quyết vấn đề sáng tạo của AI và tầm quan trọng của các framework kiểm tra mạnh mẽ để đảm bảo hoàn thành tác vụ thực sự.
CompileBench đại diện cho một bước tiến đáng kể hướng tới việc hiểu các hạn chế thực tế của AI trong các tình huống phát triển thực tế, vượt ra ngoài việc tạo code đơn giản để giải quyết các khía cạnh phức tạp, thường gây khó chịu của bảo trì phần mềm mà tiêu tốn thời gian đáng kể của nhà phát triển.