Startup AI xây dựng cụm lưu trữ 30 Petabyte với chi phí 35 nghìn đô la Mỹ mỗi tháng so với 1,2 triệu đô la Mỹ trên AWS

Nhóm Cộng đồng BigGo
Startup AI xây dựng cụm lưu trữ 30 Petabyte với chi phí 35 nghìn đô la Mỹ mỗi tháng so với 1,2 triệu đô la Mỹ trên AWS

Một phòng thí nghiệm nghiên cứu AI có trụ sở tại San Francisco đã chứng minh được mức tiết kiệm chi phí đáng kể khi sử dụng hạ tầng lưu trữ tại chỗ, xây dựng cụm lưu trữ 30 petabyte chỉ với 35.000 đô la Mỹ mỗi tháng so với chi phí ước tính 1,2 triệu đô la Mỹ mỗi tháng của Amazon Web Services. Dự án này, được thiết kế để lưu trữ các bộ dữ liệu video khổng lồ phục vụ huấn luyện mô hình thị giác máy tính, đã tạo ra cuộc thảo luận sôi nổi trong cộng đồng công nghệ về những chi phí ẩn và sự đánh đổi trong việc vận hành trung tâm dữ liệu tự xây dựng.

So sánh Chi phí (Hàng tháng)

Nhà cung cấp Chi phí Lưu trữ Chi phí Egress Tổng Hàng tháng
Tại chỗ $17.5K (định kỳ) + $17.5K (khấu hao) Đã bao gồm $35K
AWS S3 $690K $500K $1.19M
Cloudflare R2 $450K (công bố) / $150K (ước tính riêng tư) $0 $150K-450K
Một giá đỡ máy chủ công nghệ cao trưng bày các ổ cứng doanh nghiệp đã qua sử dụng cho cụm lưu trữ khổng lồ
Một giá đỡ máy chủ công nghệ cao trưng bày các ổ cứng doanh nghiệp đã qua sử dụng cho cụm lưu trữ khổng lồ

Yếu tố chi phí lao động bị bỏ sót

Mối quan tâm nổi bật nhất được cộng đồng đưa ra tập trung vào các chi phí vận hành không được tính vào trong so sánh chi phí. Trong khi startup tính tổng chi phí hàng năm là 354.000 đô la Mỹ bao gồm khấu hao, các nhà phê bình chỉ ra rằng lương nhân viên tại San Francisco để duy trì hạ tầng có thể dễ dàng tăng gấp đôi hoặc gấp ba chi phí vận hành thực tế. Sự thiếu sót này làm nổi bật một cạm bẫy phổ biến trong việc so sánh giữa cloud và hạ tầng tại chỗ khi chi phí lao động bị đánh giá thấp hoặc bỏ qua hoàn toàn.

Chiến lược không dự phòng gây tranh cãi

Thiết lập lưu trữ cố ý loại bỏ việc dự phòng dữ liệu để giảm thiểu chi phí, một quyết định đã chia rẽ ý kiến cộng đồng. Cách tiếp cận này phù hợp với trường hợp sử dụng cụ thể của họ là lưu trữ dữ liệu huấn luyện có thể dễ dàng thay thế, nhưng nhiều người đặt câu hỏi về khả năng áp dụng cho các doanh nghiệp yêu cầu đảm bảo tính toàn vẹn dữ liệu. Cộng đồng lưu ý rằng trong khi chiến lược này có ý nghĩa đối với việc tích trữ video từ YouTube, nó sẽ không phù hợp với hầu hết các tổ chức cần đảm bảo dữ liệu của họ an toàn khỏi lỗi phần cứng hoặc thảm họa.

Đánh bạc với phần cứng cũ đã thành công

Quyết định của nhóm sử dụng 2.400 ổ cứng doanh nghiệp cũ trị giá 500.000 đô la Mỹ đã tạo ra cuộc tranh luận đáng kể về độ tin cậy so với tiết kiệm chi phí. Các thành viên cộng đồng chia sẻ những trải nghiệm trái chiều với ổ cứng cũ, lưu ý về sự biến động hiệu suất cao và đặt câu hỏi về chi phí bảo trì dài hạn. Tuy nhiên, những người khác lập luận rằng ổ cứng cũ có thể tiết kiệm chi phí vì chúng đã vượt qua giai đoạn lỗi sớm thường ảnh hưởng đến phần cứng mới.

Ổ cứng cũ có ý nghĩa nếu việc bảo trì máy chủ tại nhà là một sở thích. Thật thú vị khi chẩn đoán và giải quyết các vấn đề trong máy chủ tại nhà, và ổ cứng hỏng cho tôi lý do để làm việc trên máy chủ.

Startup báo cáo tỷ lệ hỏng đĩa hàng năm thận trọng là 5%, tương đương với việc thay thế khoảng 120 ổ cứng mỗi năm - một con số có thể quản lý được đối với kiến trúc lưu trữ đơn giản của họ được xây dựng chỉ với 200 dòng code Rust và một máy chủ web nginx.

Thông số kỹ thuật phần cứng

Hạ tầng lưu trữ:

  • 2.400 ổ cứng (chủ yếu là ổ cứng doanh nghiệp đã qua sử dụng 12TB SATA/SAS)
  • 120 khung chứa SATA/SAS kép (mỗi khung 24 ổ cứng)
  • 10 node chính CPU ( Intel R2200 series )
  • Kết nối internet chuyên dụng 100 Gbps

Chi phí một lần:

  • Ổ cứng: $500K
  • Hạ tầng: $35K
  • Mạng & thiết lập: $91.5K
  • Tổng đầu tư ban đầu: $626.5K

Kiểm tra thực tế về bảo trì

Thảo luận cộng đồng tiết lộ rằng thử thách thực sự của cách tiếp cận này nằm ở chi phí vận hành liên tục. Trong khi startup được hưởng lợi từ việc có trung tâm dữ liệu chỉ cách văn phòng của họ vài dãy nhà, cho phép các chuyến thăm gỡ lỗi và bảo trì nhanh chóng, hầu hết các tổ chức sẽ cần nhân viên vận hành chuyên dụng. Ước tính cho thấy ít nhất 5 giờ hàng tuần cho các nhiệm vụ bảo trì, điều này có thể ảnh hưởng đáng kể đến tính toán tổng chi phí sở hữu.

Dự án đã đạt đến công suất và nhóm đang xem xét nhân rộng thiết lập, cho thấy phân tích chi phí-lợi ích của họ đã chứng minh thành công cho nhu cầu cụ thể của họ. Tuy nhiên, sự đồng thuận của cộng đồng chỉ ra rằng trong khi có thể tiết kiệm chi phí ấn tượng với lưu trữ tại chỗ, những phức tạp vận hành ẩn và chi phí lao động khiến các giải pháp cloud trở nên thực tế hơn đối với hầu hết các tổ chức.

Tham khảo: Building the heap: racking 30 petabytes of hard drives for pretraining