Anthropic đã phát hành Claude Sonnet 4 với cửa sổ ngữ cảnh khổng lồ 1 triệu token, có khả năng xử lý gần như toàn bộ bộ truyện Harry Potter trong một lời nhắc duy nhất. Sự phát triển này đã tạo ra cuộc thảo luận sôi nổi trong cộng đồng AI, đặc biệt xung quanh việc so sánh với các mô hình cạnh tranh của Google trong các bài kiểm tra hiệu suất thực tế.
Thông số kỹ thuật cửa sổ ngữ cảnh
- Claude Sonnet 4: 1 triệu token
- Gemini 1.5 Pro: 1 triệu token
- Gemini 1.5 Flash: 1 triệu token
- Khả năng ước tính: ~1 triệu từ (toàn bộ series Harry Potter )
Sự đánh đổi giữa tốc độ và chi tiết xuất hiện trong các tác vụ ngữ cảnh dài
Kết quả kiểm tra cho thấy sự phân chia hiệu suất rõ ràng giữa Claude Sonnet 4 và các mô hình Gemini của Google. Trong các tác vụ phân tích cảnh phim được ẩn trong 900.000 từ văn bản, Claude hoàn thành công việc chỉ trong 41,8 giây, gần như nhanh gấp đôi so với Gemini Flash (69,2 giây) và nhanh hơn đáng kể so với Gemini Pro (116,0 giây). Tuy nhiên, tốc độ này đi kèm với cái giá - phản hồi của Claude luôn khoảng 500 từ trong khi các mô hình Gemini cung cấp phân tích toàn diện hơn nhiều với 1.591 đến 3.372 từ.
Về độ chính xác thì có lợi cho Claude, với mô hình này cho thấy ít ảo giác hơn so với các biến thể Gemini đôi khi nhận dạng sai tên phim. Khi Claude không chắc chắn về chi tiết, nó đơn giản từ chối cung cấp thông tin có thể không chính xác thay vì bịa đặt sự thật.
So sánh hiệu suất - Phân tích cảnh phim
Model | Thời gian phản hồi | Số từ | Độ chính xác |
---|---|---|---|
Claude Sonnet 4 | 41.8 giây | ~500 từ | Cao (không có ảo giác) |
Gemini 1.5 Flash | 69.2 giây | 3,372 từ | Trung bình (có một số ảo giác) |
Gemini 1.5 Pro | 116.0 giây | 1,591 từ | Trung bình (có một số ảo giác) |
![]() |
---|
Biểu đồ này minh họa so sánh hiệu suất của các mô hình AI khác nhau trong việc phân tích chiến lược trò chơi, làm nổi bật sự cân bằng giữa tốc độ và độ chi tiết trong các phân tích của chúng |
Phân tích mã nguồn cho thấy lợi thế kỹ thuật của Gemini
Đối với phân tích codebase phức tạp liên quan đến hệ thống Ruby on Rails, các mô hình Gemini đã thể hiện hiệu suất vượt trội bất chấp lợi thế tốc độ của Claude. Các thảo luận cộng đồng nêu bật mối quan ngại đang diễn ra về các vấn đề quản lý ngữ cảnh của Gemini, với người dùng báo cáo các vấn đề mà mô hình bị nhầm lẫn trong các cuộc trò chuyện dài và bắt đầu pha trộn các khái niệm và tuyên bố, sau đó tham chiếu đến một số sự thật hoặc bình luận lai tạo được bịa đặt.
Gemini thực sự tệ về việc pha trộn ngữ cảnh. Nó không thể theo dõi những gì tôi đã nói và những gì nó đã nói trong một cuộc trò chuyện dưới 200K token.
Phản hồi này cho thấy rằng trong khi Gemini xuất sắc trong các tác vụ phân tích chi tiết, nó gặp khó khăn trong việc duy trì ngữ cảnh dài hạn mạch lạc trong các tình huống tương tác.
Giá cả tạo ra rào cản đáng kể
Cấu trúc chi phí rất có lợi cho các sản phẩm của Google. Claude tính phí 8 đô la Mỹ cho 1 triệu token đầu vào đối với các lời nhắc trên 200.000 token, trong khi Gemini Pro chỉ có giá 1,50 đô la Mỹ và Gemini Flash chỉ 0,35 đô la Mỹ cho một triệu token. Khoảng cách giá này đã khiến các thành viên cộng đồng nêu bật nền tảng AI Studio miễn phí của Google, cung cấp quyền truy cập vào cửa sổ ngữ cảnh 1 triệu token đầy đủ mà không mất phí, mặc dù có giới hạn sử dụng.
So sánh giá cả - Trên 1 triệu token đầu vào
- Claude Sonnet 4: $8.00 USD (cho các prompt >200K token)
- Gemini 1.5 Pro: $1.50 USD
- Gemini 1.5 Flash: $0.35 USD
- Google AI Studio: Miễn phí (với giới hạn sử dụng)
Kết luận
Cửa sổ ngữ cảnh 1 triệu token của Claude Sonnet 4 đại diện cho một thành tựu kỹ thuật đáng kể, đặc biệt đối với người dùng ưu tiên tốc độ và độ chính xác hơn phân tích chi tiết. Tuy nhiên, mức phí cao đáng kể và hiệu suất vượt trội của Gemini trong các tác vụ toàn diện tạo ra một ma trận quyết định phức tạp cho các nhà phát triển và doanh nghiệp lựa chọn giữa các nền tảng AI này.
Tham khảo: Vibe Check: Claude Sonnet 4. Now Has a 1-million Joken Context Window