Bài thuyết trình của Google tại Hot Chips 2025 về hệ thống làm mát bằng chất lỏng quy mô trung tâm dữ liệu cho chip TPU đã khơi mào một cuộc thảo luận sôi nổi trong cộng đồng công nghệ. Trong khi công ty giới thiệu giải pháp làm mát của họ như một bước tiến đáng kể, nhiều chuyên gia kỳ cựu trong ngành đang đặt câu hỏi liệu điều này có thực sự đại diện cho sự đổi mới chính thống hay chỉ đơn giản là việc tái khám phá các công nghệ mainframe đã được thiết lập.
Lộ trình làm mát bằng chất lỏng của Google
- 2014-2016: Giai đoạn nghiên cứu phát triển và thử nghiệm ban đầu
- 2016: Triển khai TPU làm mát bằng chất lỏng đầu tiên
- 2025: Triển khai quy mô trung tâm dữ liệu hiện tại với các CDU cấp rack
Cuộc tranh luận giữa Đổi mới và Tái khám phá
Tranh cãi cốt lõi xoay quanh việc liệu cách tiếp cận của Google có thực sự tạo ra bước đột phá mới hay không. Những người chỉ trích chỉ ra rằng các mainframe đã sử dụng làm mát bằng chất lỏng trong hơn 50 năm, với các hệ thống IBM từ những năm 1960 đã áp dụng trao đổi nhiệt nước-nước thông qua các Đơn vị Phân phối Chất làm mát (CDU) - cùng kiến trúc cơ bản mà Google trình bày ngày nay. Một số thành viên cộng đồng bày tỏ sự bực bội trước những gì họ coi là chứng mất trí nhớ có chọn lọc trong ngành.
Tuy nhiên, những người ủng hộ lập luận rằng sự đổi mới thực sự không nằm ở chính khái niệm làm mát, mà ở quy mô và cách tiếp cận tích hợp. Hệ thống của Google trải rộng trên toàn bộ trung tâm dữ liệu thay vì các máy chủ hoặc rack riêng lẻ, loại bỏ việc truyền nhiệt dựa trên không khí trong toàn bộ chuỗi làm mát từ chip đến máy làm lạnh bên ngoài.
Quy mô và Thách thức Vận hành
Cuộc thảo luận tiết lộ những hiểu biết thú vị về các thách thức thực tế của việc làm mát bằng chất lỏng quy mô trung tâm dữ liệu. Không giống như những người đam mê PC có thể đơn giản tắt hệ thống để bảo trì, Google phải duy trì thời gian ngừng hoạt động bằng không trên hàng nghìn máy chủ. Giải pháp của họ bao gồm các CDU dự phòng và hệ thống giám sát tinh vi để xử lý việc bảo trì mà không gián đoạn dịch vụ.
Các thành viên cộng đồng có kinh nghiệm về trung tâm dữ liệu nhấn mạnh sự phức tạp của việc quản lý các kết nối nước cùng với cáp điện và mạng truyền thống. Mỗi máy chủ hiện cần các đường dẫn nước cung cấp và hồi lưu với các phụ kiện ngắt kết nối nhanh, về cơ bản coi máy chủ như chúng cần điện, internet và nước - tạo ra sự so sánh với các nhu cầu cơ bản của con người.
Thông số kỹ thuật
- Cấu hình CDU: 6 đơn vị trên mỗi rack (5 hoạt động, 1 để bảo trì)
- Hiệu suất làm mát: Nước có độ dẫn nhiệt cao gấp ~4000 lần so với không khí
- Tiết kiệm điện năng: Bơm làm mát bằng chất lỏng sử dụng <5% công suất so với quạt tương đương
- Cải tiến TPUv4: Làm mát bare-die cung cấp khả năng xử lý công suất cao hơn 1.5 lần so với TPUv3
Cân nhắc về Môi trường và Hiệu quả
Khía cạnh sử dụng nước đã tạo ra cuộc tranh luận đáng kể, đặc biệt xung quanh tác động môi trường của AI. Trong khi một số người bày tỏ lo ngại về việc tiêu thụ nước, những người khác lập luận rằng việc chỉ trích này bị thổi phồng quá mức. Cuộc thảo luận tiết lộ rằng việc sử dụng nước của trung tâm dữ liệu, mặc dù đáng kể với 66 triệu gallon mỗi ngày tại Mỹ, chỉ chiếm khoảng 6% lượng nước tiêu thụ của sân golf và 3% so với việc trồng bông.
Tôi từng xem một cuộc phỏng vấn với SVP người giám sát việc xây dựng trung tâm dữ liệu Azure hay gì đó tương tự và điều khiến tôi ấn tượng là ông ấy nói công việc của ông trở nên dễ dàng hơn nhiều khi ông nhận ra mình không còn trong ngành máy tính nữa, giờ ông đang trong ngành làm mát công nghiệp.
Bối cảnh Sử dụng Nước
- Tiêu thụ Datacenter tại Mỹ: 66 triệu gallon/ngày (2024)
- Dự báo Tăng trưởng: Tăng 2-4 lần vào năm 2028
- So sánh: 6% lượng nước sử dụng cho sân golf tại Mỹ, 3% lượng nước sử dụng cho trồng bông
- Tỷ lệ của Google: ~1 lít trên mỗi kilowatt-giờ trên toàn cầu
Chi tiết Triển khai Kỹ thuật
Cuộc thảo luận cộng đồng cung cấp những hiểu biết kỹ thuật có giá trị vượt ra ngoài bài thuyết trình gốc. Thiết kế tấm lạnh phân luồng và cách tiếp cận làm mát chip trần của Google cho chip TPUv4 chứng minh những nỗ lực cần thiết để xử lý mật độ công suất ngày càng tăng. Cấu hình nối tiếp của hệ thống có nghĩa là một số chip nhận chất làm mát đã được làm nóng trước, đòi hỏi việc lập ngân sách nhiệt cẩn thận cho chip cuối cùng trong mỗi vòng lặp.
Các kỹ sư có kinh nghiệm lưu ý rằng mặc dù các thành phần riêng lẻ không mang tính cách mạng, nhưng sự kết hợp và tối ưu hóa quy mô đại diện cho những thành tựu kỹ thuật đáng kể. Các con số Hiệu quả Sử dụng Điện năng (PUE) được báo cáo cho thấy việc triển khai của Google có hiệu quả cao so với các cách tiếp cận làm mát bằng không khí truyền thống.
Cuộc tranh luận cuối cùng phản ánh một mô hình rộng hơn trong ngành công nghệ nơi các công ty tái khám phá và điều chỉnh các công nghệ đã được thiết lập cho các quy mô và ứng dụng mới. Dù được xem là đổi mới hay lặp lại, việc triển khai làm mát bằng chất lỏng của Google chứng minh sự phát triển liên tục của cơ sở hạ tầng trung tâm dữ liệu để đáp ứng nhu cầu của các khối lượng công việc AI hiện đại.
Tham khảo: Google's Liquid Cooling at Hot Chips 2025