OpenRouter , một dịch vụ định tuyến mô hình AI phổ biến, đã trải qua sự cố ngừng hoạt động nghiêm trọng kéo dài 50 phút vào ngày 28 tháng 8 năm 2025, bắt đầu lúc 5:40 sáng theo giờ miền Đông. Dịch vụ cho phép các nhà phát triển truy cập nhiều mô hình AI thông qua một API duy nhất đã hoàn toàn ngừng hoạt động do lỗi phụ thuộc cơ sở dữ liệu upstream tại khu vực US East.
Lịch trình sự cố - 28 tháng 8, 2025
- 5:40 AM ET: Các hệ thống trở nên không thể truy cập do lỗi cơ sở dữ liệu
- 10:29 AM ET: Chat API được khôi phục về trạng thái hoạt động
- 10:30 AM ET: Giải thích chính thức về sự cố được đăng tải
- 10:38 AM ET: Generation API được khôi phục về trạng thái hoạt động
- Tổng thời gian ngừng hoạt động: Khoảng 50 phút
Sự mỉa mai của tính dự phòng tập trung
Sự cố này đã gây ra cuộc thảo luận sôi nổi về đề xuất giá trị cốt lõi của OpenRouter . Trong khi dịch vụ tự quảng cáo mình là giải pháp để tránh thời gian ngừng hoạt động của từng nhà cung cấp AI bằng cách định tuyến yêu cầu qua nhiều nhà cung cấp, sự cố này đã làm nổi bật một điểm yếu cơ bản trong cách tiếp cận này. Cộng đồng nhanh chóng chỉ ra sự mâu thuẫn: một dịch vụ được thiết kế để loại bỏ các điểm lỗi đơn lẻ lại chính nó trở thành một điểm như vậy.
Cuộc thảo luận cho thấy OpenRouter thực sự cung cấp tính dự phòng thực tế cho nhiều mô hình, bao gồm các mô hình đóng như Claude , có sẵn thông qua nhiều nhà cung cấp như Google Vertex , Amazon Bedrock và Anthropic trực tiếp. Tuy nhiên, khi chính cơ sở hạ tầng của OpenRouter gặp lỗi, tất cả tính dự phòng đó trở nên vô nghĩa.
Thách thức giao tiếp trong khủng hoảng
Người dùng bày tỏ sự thất vọng không chỉ với thời gian ngừng hoạt động mà còn với việc thiếu giao tiếp kịp thời. Trong gần như toàn bộ thời gian sự cố, trang trạng thái chỉ hiển thị các thông báo tự động mà không có sự thừa nhận từ con người hoặc thời gian khôi phục dự kiến. Cộng đồng lưu ý rằng OpenRouter chủ yếu giao tiếp thông qua Discord thay vì các kênh truyền thống, điều này có thể không tiếp cận được tất cả người dùng trong các sự cố quan trọng.
Tôi chủ yếu lo lắng về việc thiếu giao tiếp của họ. Sẽ tốt hơn nếu biết rằng họ đang xem xét vấn đề và có thời gian dự kiến.
Khoảng trống giao tiếp này đã trở thành chủ đề thảo luận quan trọng, với người dùng so sánh một cách không thuận lợi với các trang trạng thái hiển thị Tất cả hệ thống hoạt động bình thường ngay cả trong các sự cố rõ ràng.
Các giải pháp thay thế xuất hiện
Thời điểm của sự cố trùng với các cuộc thảo luận về các giải pháp thay thế tự lưu trữ, với các thành viên cộng đồng chia sẻ các dự án như NiceAPI làm giải pháp tiềm năng cho các tổ chức yêu cầu độ tin cậy thời gian hoạt động tối đa. Sự cố đã thúc đẩy người dùng xem xét lại các chiến lược phụ thuộc của họ, với nhiều người kết luận rằng ngay cả khi sử dụng OpenRouter , việc duy trì các nhà cung cấp dự phòng vẫn là cần thiết.
Chris từ OpenRouter đã thừa nhận mức độ nghiêm trọng của tình huống và hứa sẽ có một cuộc điều tra khám nghiệm tử thi chi tiết. Công ty tuyên bố họ đang tích cực làm việc để cải thiện tính dự phòng và loại bỏ các điểm lỗi đơn lẻ, mặc dù cộng đồng vẫn hoài nghi về việc điều này có thể đạt được hiệu quả như thế nào trong khi vẫn duy trì kiến trúc tập trung của dịch vụ.
Sự cố này là lời nhắc nhở rằng trong khi các dịch vụ tổng hợp có thể cung cấp tính dự phòng có giá trị, chúng cũng tạo ra những rủi ro riêng cần được xem xét cẩn thận trong các ứng dụng quan trọng.
Tham khảo: OpenRouter