Qwen3-235B-A22B-Thinking-2507 Đối Mặt Với Câu Hỏi Về Độ Chính Xác Benchmark Bất Chấp Tuyên Bố Hiệu Suất Mạnh Mẽ

Nhóm Cộng đồng BigGo
Qwen3-235B-A22B-Thinking-2507 Đối Mặt Với Câu Hỏi Về Độ Chính Xác Benchmark Bất Chấp Tuyên Bố Hiệu Suất Mạnh Mẽ

Mô hình AI mới nhất của Alibaba , Qwen3-235B-A22B-Thinking-2507 , đã gây ra nhiều thảo luận trong cộng đồng AI, không chỉ vì điểm số benchmark ấn tượng mà còn vì những câu hỏi xung quanh độ chính xác của một số kết quả được báo cáo. Mô hình này đại diện cho một bản cập nhật lớn cho khả năng tư duy của Qwen , với khả năng lý luận được cải thiện và hiểu ngữ cảnh dài lên đến 362,144 token một cách tự nhiên.

Thông số kỹ thuật của mô hình

  • Tổng số tham số: 235B (110B được kích hoạt)
  • Kiến trúc: Mixture-of-Experts với 128 chuyên gia (8 được kích hoạt)
  • Độ dài ngữ cảnh: 362,144 token gốc
  • Số lớp: 94
  • Đầu attention: 60 cho Q và K, 6 cho KV
  • Giấy phép: Apache 2.0
Hình ảnh này minh họa thẻ mô hình cho Qwen3-235B-A22B-Thinking-2507 , làm nổi bật khả năng suy luận tiên tiến và hiểu biết ngữ cảnh dài của nó
Hình ảnh này minh họa thẻ mô hình cho Qwen3-235B-A22B-Thinking-2507 , làm nổi bật khả năng suy luận tiên tiến và hiểu biết ngữ cảnh dài của nó

Sự Khác Biệt Trong Báo Cáo Benchmark Gây Lo Ngại

Một cuộc tranh cãi đáng chú ý đã xuất hiện liên quan đến độ chính xác của benchmark. Nhóm Qwen ban đầu báo cáo điểm số 41.8% trên benchmark ARC-AGI cho mô hình không có tính năng tư duy của họ, điều này sẽ đại diện cho một thành tựu đột phá. Tuy nhiên, khi nhóm ARC độc lập kiểm tra cùng một mô hình, họ chỉ tìm thấy điểm số 11% - vẫn đáng kính nhưng khác biệt đáng kể so với tuyên bố ban đầu.

Sự khác biệt này đã khiến cộng đồng AI bối rối, không có lời giải thích rõ ràng nào được cung cấp bởi nhóm Qwen . Sự khác biệt này đặc biệt nổi bật vì nó đại diện cho sự chênh lệch gấp bốn lần trong hiệu suất được báo cáo, làm dấy lên câu hỏi về phương pháp kiểm tra và quy trình xác minh kết quả.

Điểm nổi bật về hiệu suất

  • GPQA: 80.3% (so với Claude3 Opus Thinking: 78.6%)
  • LiveCodeBench: 74.1% (điểm số dẫn đầu)
  • Arena Hard v1.2: 87.7%
  • IFEval: 97.8%
  • Tranh cãi ARC-AGI: Ban đầu báo cáo 41.8%, xác minh độc lập ở mức 11%

Khả Năng Kỹ Thuật và Sự Đón Nhận Của Cộng Đồng

Bất chấp tranh cãi về benchmark, mô hình cho thấy các thông số kỹ thuật ấn tượng. Nó có 235 tỷ tham số tổng cộng với 110 tỷ được kích hoạt, sử dụng kiến trúc mixture-of-experts với 128 chuyên gia (8 được kích hoạt), và hỗ trợ chế độ tư duy độc quyền. Mô hình thể hiện hiệu suất mạnh mẽ trên các nhiệm vụ khác nhau bao gồm lập trình, toán học và các thử thách lý luận.

Các thành viên cộng đồng đã lưu ý đến vị thế cạnh tranh của mô hình so với các hệ thống AI hàng đầu khác. Nếu kết quả benchmark chịu được sự kiểm tra kỹ lưỡng, điều này sẽ đại diện cho tỷ lệ khả năng-tham số đặc biệt, đặc biệt là cho một mô hình mã nguồn mở được phát hành dưới giấy phép Apache 2.0 .

Triển Khai Thực Tế và Tối Ưu Hóa

Cộng đồng phát triển AI đã nhanh chóng huy động để làm cho mô hình có thể truy cập được cho suy luận cục bộ. Các kỹ thuật lượng tử hóa chuyên biệt đang được phát triển để chạy mô hình trên phần cứng tiêu dùng, với các mức nén khác nhau có sẵn để cân bằng hiệu suất và yêu cầu bộ nhớ.

Phần cứng và chi phí được giả định là khoảng cấp độ máy tính để bàn. Nếu bạn có một máy gaming với RTX 4090 và 128GB RAM , bạn có thể chạy được nếu chọn đúng quant.

Đối với triển khai doanh nghiệp, mô hình yêu cầu tài nguyên tính toán đáng kể, với khuyến nghị cho phần cứng H200 hoặc B200 để có thông lượng tối ưu khi xử lý các dấu vết lý luận lớn và ngữ cảnh đầu vào đáng kể.

Yêu cầu phần cứng

  • Tối thiểu cho suy luận cục bộ: RTX 4090 với 128GB RAM (có lượng tử hóa)
  • Triển khai doanh nghiệp: Khuyến nghị phần cứng H200 hoặc B200
  • Khuyến nghị độ dài ngữ cảnh: >131,072 token để suy luận tối ưu
  • Độ dài đầu ra: 32,768 token (tiêu chuẩn), 81,920 token (tác vụ phức tạp)

Bối Cảnh Cạnh Tranh và Ý Nghĩa Chiến Lược

Việc phát hành này làm nổi bật cuộc cạnh tranh đang diễn ra giữa các phòng thí nghiệm AI của Trung Quốc và phương Tây. Các quan sát viên cộng đồng lưu ý rằng các công ty Trung Quốc như Alibaba tiếp tục phát hành các mô hình mã nguồn mở lớn trong khi các công ty Mỹ có xu hướng tập trung vào các kích thước nhỏ hơn, khả thi thương mại hơn hoặc giữ các mô hình lớn nhất của họ là độc quyền.

Sự khác biệt chiến lược này phản ánh các mô hình kinh doanh và môi trường quy định khác nhau. Các phòng thí nghiệm Trung Quốc dường như đang sử dụng việc phát hành mã nguồn mở như một chiến lược cạnh tranh, có khả năng phá vỡ các mô hình doanh thu dựa trên suy luận của các công ty AI phương Tây trong khi xây dựng ảnh hưởng công nghệ trên toàn cầu.

Các tuyên bố về hiệu suất của mô hình, nếu được xác minh, sẽ định vị nó một cách cạnh tranh so với các hệ thống độc quyền như Gemini 2.5 Pro và GPT-4 , khiến nó trở thành một lựa chọn hấp dẫn cho các tổ chức tìm kiếm khả năng AI mạnh mẽ mà không bị ràng buộc nhà cung cấp hoặc hạn chế sử dụng.

Tham khảo: Qwen3-235B-A22B-Thinking-2507