Claude Sonnet 4.5 Gây Ra Phản Ứng Trái Chiều Từ Các Nhà Phát Triển Bất Chấp Những Tuyên Bố Về Điểm Chuẩn

Nhóm Cộng đồng BigGo

Claude Sonnet 4.5 Gây Ra Phản Ứng Trái Chiều Từ Các Nhà Phát Triển Bất Chấp Những Tuyên Bố Về Điểm Chuẩn

Anthropic đã phát hành Claude Sonnet 4.5 , tuyên bố đây là mô hình lập trình tốt nhất thế giới với điểm số 77.2% trên bài đánh giá SWE-bench verified. Tuy nhiên, phản hồi ban đầu từ các nhà phát triển cho thấy một bức tranh phức tạp không phải lúc nào cũng phù hợp với những con số điểm chuẩn ấn tượng.

Mô hình mới duy trì mức giá tương tự như phiên bản tiền nhiệm ở mức 3 đô la Mỹ cho một triệu prompt token, đồng thời giới thiệu một số cập nhật sản phẩm bao gồm Claude Code 2.0 với tính năng checkpoint, tiện ích mở rộng VS Code gốc, và công cụ thử nghiệm Imagine with Claude tạo ra phần mềm theo thời gian thực.

Thông số kỹ thuật chính của Claude Sonnet 4.5:

Điểm số đã xác minh trên SWE-bench: 77,2% (tăng từ 72,7% ở Sonnet 4)
Giá cả: 3 USD cho một triệu prompt token (không thay đổi)
Điểm số hoàn hảo trên bài kiểm tra toán học AIME
Tuyên bố khả năng hoạt động tự động liên tục 30+ giờ
Cùng mức giá với Claude Sonnet 4


Giới thiệu Claude Sonnet 45, trình bày khả năng tiên tiến trong lập trình và phát triển AI

Hiệu Suất Thực Tế Cho Thấy Kết Quả Trái Chiều

Bất chấp những cải tiến về điểm chuẩn, các nhà phát triển báo cáo trải nghiệm không nhất quán trong các ứng dụng thực tế. Một số người dùng nhận thấy mô hình xuất sắc về tốc độ nhưng gặp khó khăn với chất lượng code. Một nhà phát triển thử nghiệm việc triển khai tìm kiếm mờ lưu ý rằng trong khi Sonnet 4.5 hoàn thành nhiệm vụ chỉ trong 3 phút so với 20 phút của GPT-5-Codex , kết quả nhanh hơn lại bị lỗi và hời hợt với các vấn đề xác thực và thiếu kiểm thử.

Thảo luận cộng đồng tiết lộ một mô hình mà các mô hình khác nhau xuất sắc trong các tình huống khác nhau. Người dùng báo cáo rằng GPT-5-Codex có xu hướng tạo ra code kỹ lưỡng hơn, sẵn sàng cho production với xử lý lỗi và kiểm thử phù hợp, trong khi Claude Sonnet 4.5 ưu tiên tốc độ nhưng có thể hy sinh độ sâu và độ tin cậy.

So sánh hiệu suất (Báo cáo từ người dùng):

Tốc độ: Claude Sonnet 4.5 nhanh hơn đáng kể (3 phút so với 20 phút cho các tác vụ tương tự)
Chất lượng mã: GPT-5-Codex được báo cáo là kỹ lưỡng hơn với khả năng xử lý lỗi tốt hơn
Kiểm thử: GPT-5-Codex tự động viết các bài test, Claude thường yêu cầu phải nhắc nhở
Xác thực: Một số người dùng báo cáo Claude tạo lại logic xác thực thay vì tái sử dụng các mẫu có sẵn


Phân tích so sánh điểm số hành vi không phù hợp giữa các mô hình lập trình khác nhau, minh họa sự khác biệt về hiệu suất được báo cáo bởi các nhà phát triển

Quản Lý Ngữ Cảnh và Tích Hợp Quy Trình Làm Việc

Một phần đáng kể phản hồi từ nhà phát triển tập trung vào khả năng quản lý ngữ cảnh. Khả năng duy trì sự tập trung của mô hình trong các phiên lập trình dài có vẻ được cải thiện, với Anthropic tuyên bố nó có thể làm việc không cần giám sát lên đến 30 giờ cho các nhiệm vụ phức tạp. Tuy nhiên, một số người dùng báo cáo các vấn đề với việc mô hình mất dấu ngữ cảnh dự án hoặc đưa ra quyết định không nhất quán khi làm việc với các codebase lớn.

Việc tích hợp với quy trình phát triển cũng cho thấy kết quả trái chiều. Trong khi một số nhà phát triển khen ngợi hệ thống checkpoint mới và cải thiện lựa chọn terminal, những người khác lưu ý rằng mô hình đôi khi bỏ qua các mẫu code hiện có và tái tạo các thành phần đã tồn tại trong dự án.

Tính năng mới trong Claude Code 2.0:

Điểm kiểm tra để lưu tiến trình và chức năng khôi phục
Tiện ích mở rộng VS Code tích hợp sẵn
Tính năng chỉnh sửa tập trung và quỹ bộ nhớ cho API
Trình thực thi mã và tạo tệp trong cuộc hội thoại
Tiện ích mở rộng Chrome dành cho quản trị viên nhóm
Claude Agent SDK để xây dựng các agent tùy chỉnh

Khoảng Cách Giữa Điểm Chuẩn và Thực Tế

Sự ngắt kết nối giữa hiệu suất điểm chuẩn và sử dụng thực tế đã trở thành chủ đề lặp lại trong các thảo luận cộng đồng. Một số nhà phát triển bày tỏ lo ngại rằng các công ty có thể đang tối ưu hóa cho điểm số điểm chuẩn thay vì tiện ích thực tế. Cách tiếp cận benchmarking theo kiểu này có khả năng tạo ra các mô hình xuất sắc trong đánh giá có kiểm soát nhưng gặp khó khăn với bản chất lộn xộn, phụ thuộc ngữ cảnh của phát triển phần mềm thực tế.

Điểm chuẩn SWE-bench verified , mặc dù được thiết kế để giảm nhiễu đánh giá, vẫn đối mặt với những hạn chế trong việc nắm bắt toàn bộ sự phức tạp của phát triển phần mềm chuyên nghiệp, bao gồm các quy trình xem xét code, hợp tác nhóm, và các cân nhắc về khả năng bảo trì lâu dài.


Tỷ lệ thắng của các mô hình coding khác nhau, làm nổi bật sự chênh lệch giữa benchmark và thực tế trong đánh giá hiệu suất

Áp Lực Giá Cả và Cạnh Tranh

Chi phí vẫn là yếu tố quan trọng trong việc áp dụng mô hình. Nhiều nhà phát triển đề cập đến việc chuyển sang các lựa chọn thay thế nhanh hơn, rẻ hơn như Grok Code Fast cho các nhiệm vụ thường ngày, dành các mô hình cao cấp cho các vấn đề phức tạp. Mức giá 3 đô la Mỹ cho một triệu token, mặc dù không thay đổi so với Sonnet 4 , vẫn tiếp tục được coi là đắt so với đối thủ cạnh tranh, đặc biệt đối với các nhà phát triển tự trả tiền.

Tôi sẽ chọn 20 phút mỗi lần, biết rằng công việc đã được thực hiện có cảm giác như công việc được thực hiện bởi một nhà phát triển senior.

Áp lực giá cả này đã dẫn đến các mô hình sử dụng thú vị nơi các nhà phát triển sử dụng nhiều mô hình một cách chiến lược - sử dụng các lựa chọn nhanh hơn, rẻ hơn cho công việc ban đầu và các mô hình cao cấp để tinh chỉnh và giải quyết vấn đề phức tạp.

Việc phát hành Claude Sonnet 4.5 đại diện cho tiến bộ gia tăng trong hỗ trợ lập trình AI, nhưng khoảng cách giữa tuyên bố marketing và trải nghiệm nhà phát triển vẫn còn đáng kể. Trong khi điểm số điểm chuẩn tiếp tục cải thiện, những thách thức thực tế về chất lượng code, nhận thức ngữ cảnh, và hiệu quả chi phí cho thấy rằng danh hiệu mô hình lập trình tốt nhất có thể phụ thuộc rất nhiều vào các trường hợp sử dụng cụ thể và quy trình làm việc của từng nhà phát triển.

Tham khảo: Introducing Claude Sonnet 4.5

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌