Vấn đề chất lượng của Claude ảnh hưởng đến 30% người dùng do lỗi hạ tầng, không phải cắt giảm chi phí

Nhóm Cộng đồng BigGo
Vấn đề chất lượng của Claude ảnh hưởng đến 30% người dùng do lỗi hạ tầng, không phải cắt giảm chi phí

Anthropic đã phát hành một báo cáo kỹ thuật chi tiết giải thích lý do tại sao người dùng Claude gặp phải tình trạng chất lượng phản hồi giảm sút trong khoảng thời gian từ tháng 8 đến tháng 9 năm 2024. Công ty đã phải đối mặt với làn sóng chỉ trích từ người dùng nghi ngờ việc cố tình hạ cấp mô hình để tiết kiệm chi phí, nhưng thực tế lại phức tạp hơn nhiều.

Ba lỗi hạ tầng riêng biệt đã tạo nên một cơn bão hoàn hảo gây ra các vấn đề chất lượng ảnh hưởng đến hàng triệu người dùng trên các nền tảng khác nhau. Những vấn đề này đặc biệt gây khó hiểu vì chúng biểu hiện khác nhau tùy thuộc vào nền tảng phần cứng nào phục vụ từng yêu cầu, tạo ra những trải nghiệm không nhất quán khiến việc chẩn đoán trở nên cực kỳ khó khăn.

Một báo cáo kỹ thuật từ Anthropic giải thích các lỗi đã ảnh hưởng đến chất lượng phản hồi của Claude
Một báo cáo kỹ thuật từ Anthropic giải thích các lỗi đã ảnh hưởng đến chất lượng phản hồi của Claude

Hỗn loạn định tuyến gây tác động mạnh nhất

Vấn đề lan rộng nhất xuất phát từ lỗi định tuyến cửa sổ ngữ cảnh bắt đầu vào ngày 5 tháng 8. Các yêu cầu ngữ cảnh ngắn đã bị gửi nhầm đến các máy chủ được cấu hình cho ngữ cảnh dài hơn 200.000 token, ban đầu chỉ ảnh hưởng đến dưới 1% yêu cầu. Tuy nhiên, một thay đổi cân bằng tải thông thường vào ngày 29 tháng 8 đã làm tình hình trở nên tệ hại hơn đáng kể, đẩy tỷ lệ lỗi lên gần 7% tổng số yêu cầu.

Tác động đặc biệt nghiêm trọng đối với người dùng Claude Code , với khoảng 30% gặp phải ít nhất một phản hồi bị suy giảm chất lượng. Tính chất dính của hệ thống định tuyến Anthropic làm vấn đề trở nên tồi tệ hơn - một khi yêu cầu của người dùng trúng phải máy chủ sai, các tin nhắn tiếp theo có khả năng sẽ đi theo cùng con đường có vấn đề đó.

Thảo luận cộng đồng cho thấy những trải nghiệm khác nhau, với một số người dùng doanh nghiệp trên Vertex AI của Google Cloud báo cáo các vấn đề tối thiểu, trong khi những người khác phải đối mặt với sự suy giảm đáng kể. Sự chênh lệch trong tỷ lệ tác động giữa các nền tảng giải thích tại sao các báo cáo của người dùng có vẻ mâu thuẫn trong suốt sự cố.

Thống kê tác động theo nền tảng:

  • Người dùng Claude Code : ~30% trải qua ít nhất một phản hồi bị suy giảm chất lượng
  • AWS Trainium : Đỉnh điểm 6.8% yêu cầu bị ảnh hưởng trong giai đoạn tồi tệ nhất
  • Google Cloud Vertex AI : Ít hơn 0.0005% yêu cầu bị ảnh hưởng
  • Amazon Bedrock : Đỉnh điểm 6.8% yêu cầu bị ảnh hưởng

Tạo token hoạt động sai lệch

Một lỗi riêng biệt được đưa vào ngày 16 tháng 8 đã gây ra hành vi còn kỳ lạ hơn. Một tối ưu hóa hiệu suất được cấu hình sai đã bắt đầu gán xác suất cao cho các token hoàn toàn không phù hợp. Người dùng đặt câu hỏi bằng tiếng Anh có thể đột nhiên thấy các ký tự tiếng Trung xuất hiện giữa phản hồi, hoặc nhận được mã chứa đầy các lỗi cú pháp rõ ràng.

Sự hỏng hóc đầu ra này ảnh hưởng đến nhiều biến thể Claude từ ngày 29 tháng 8 đến ngày 2 tháng 9, nhưng chỉ giới hạn ở nền tảng chính thức của Anthropic . Lỗi này đã chứng minh quá trình lựa chọn token thực sự phức tạp như thế nào - mặc dù mô hình AI cơ bản vẫn không thay đổi, các tính toán xác suất bị lỗi có thể hoàn toàn làm hỏng các phản hồi.

Dòng thời gian các sự cố:

  • 5 tháng 8: Lỗi định tuyến cửa sổ ngữ cảnh được đưa vào (ảnh hưởng 0.8%)
  • 16 tháng 8: Lỗi hỏng đầu ra được triển khai đến các kernel TPU
  • 28 tháng 8: Lỗi trình biên dịch XLA bị lộ do cải tiến lựa chọn token
  • 29 tháng 8: Thay đổi cân bằng tải làm trầm trọng thêm các vấn đề định tuyến lên 6.8% ảnh hưởng
  • 2 tháng 9: Lỗi hỏng đầu ra được khôi phục
  • 4-5 tháng 9: Bản sửa lỗi định tuyến ngữ cảnh được triển khai trên các nền tảng
  • 12 tháng 9: Giải pháp tạm thời cho trình biên dịch XLA được khôi phục hoàn toàn

Lỗi trình biên dịch tạo ra các vấn đề vô hình

Vấn đề phức tạp nhất về mặt kỹ thuật liên quan đến một lỗi tiềm ẩn trong trình biên dịch XLA của Google cho các chip TPU . Khi Anthropic triển khai mã lựa chọn token được cải thiện vào ngày 28 tháng 8, nó đã vô tình phơi bày lỗ hổng trình biên dịch ẩn này. Lỗi này khiến hệ thống thỉnh thoảng loại bỏ hoàn toàn các token có xác suất cao nhất khỏi việc xem xét, dẫn đến những lựa chọn từ vô nghĩa.

Vấn đề trình biên dịch này tỏ ra đặc biệt khó khăn vì hành vi của nó thay đổi dựa trên các yếu tố dường như không liên quan như kích thước batch và cài đặt debug. Cùng một prompt có thể hoạt động hoàn hảo lúc này và thất bại lúc khác, khiến việc tái tạo gần như không thể.

Hạ tầng Kỹ thuật:

  • Nền tảng phần cứng: AWS Trainium , NVIDIA GPUs , Google TPUs
  • Phân phối: API nội bộ, Amazon Bedrock , Google Cloud Vertex AI
  • Cửa sổ ngữ cảnh: Cấu hình tiêu chuẩn và 200.000 token
  • Lựa chọn token: Lấy mẫu top-k với thuật toán xấp xỉ và chính xác

Thách thức phát hiện làm nổi bật các vấn đề toàn ngành

Cuộc đấu tranh của Anthropic trong việc nhanh chóng xác định những vấn đề này tiết lộ những thách thức rộng lớn hơn trong việc giám sát hệ thống AI . Các tiêu chuẩn đánh giá truyền thống đã thất bại trong việc phát hiện sự suy giảm mà người dùng đang trải nghiệm trong việc sử dụng thực tế. Các quy tắc bảo mật/riêng tư hạn chế quyền truy cập của kỹ sư vào các tương tác người dùng, mặc dù bảo vệ dữ liệu người dùng, cũng làm chậm các nỗ lực debug.

Các quy tắc bảo mật/riêng tư đã hạn chế quyền truy cập vào dữ liệu người dùng thực để debug.

Sự phụ thuộc của công ty vào các đánh giá tự động đã tỏ ra không đủ khi các lỗi tạo ra những vấn đề tinh vi, không liên tục thay vì những lỗi rõ ràng. Khoảng trống phát hiện này kéo dài hàng tuần, trong đó sự thất vọng của người dùng gia tăng và các thuyết âm mưu về việc cố tình hạ cấp lan truyền trên mạng xã hội.

Tiến về phía trước với việc giám sát tốt hơn

Anthropic đang triển khai các đánh giá chất lượng liên tục trên các hệ thống sản xuất và phát triển các công cụ mới để phân tích phản hồi người dùng mà không ảnh hưởng đến quyền riêng tư. Công ty nhấn mạnh rằng các báo cáo của người dùng vẫn quan trọng để xác định các vấn đề mà hệ thống tự động có thể bỏ lỡ.

Sự cố này phục vụ như một lời nhắc nhở rằng ngay cả các hệ thống AI tinh vi cũng phụ thuộc vào hạ tầng phức tạp có thể thất bại theo những cách không mong đợi. Trong khi các bản sửa lỗi kỹ thuật hiện đã được triển khai, thử nghiệm thực sự sẽ là liệu việc giám sát được cải thiện của Anthropic có thể phát hiện các vấn đề tương tự trước khi chúng tác động đến người dùng ở quy mô lớn hay không.

Tham khảo: A postmortem of three recent issues