Bộ xử lý NorthPole mới nhất của IBM đã gây ra những cuộc thảo luận sôi nổi trong cộng đồng công nghệ sau khi tuyên bố những cải tiến hiệu suất đáng kể so với GPU truyền thống. Chip này đại diện cho một sự chuyển đổi cơ bản khỏi kiến trúc von Neumann tồn tại hàng thập kỷ, vốn tách biệt bộ nhớ và các đơn vị tính toán, thay vào đó tích hợp chúng trực tiếp với nhau.
Phản ứng của cộng đồng cho thấy cả sự phấn khích lẫn hoài nghi về những tuyên bố này. Trong khi IBM báo cáo kết quả benchmark ấn tượng, các nhà phát triển có kinh nghiệm đang đặt câu hỏi liệu điều này có thể hiện sự đổi mới thực sự hay chỉ đơn giản là một phiên bản khác của các phương pháp hiện có.
![]() |
---|
Một biểu diễn cách điệu về nút thắt cổ chai von Neumann, minh họa luồng dữ liệu và các ràng buộc xử lý |
Các tuyên bố về Benchmark đối mặt với kiểm tra thực tế
Các con số hiệu suất của IBM chắc chắn thu hút sự chú ý. Trong thử nghiệm với mô hình ngôn ngữ 3 tỷ tham số, NorthPole đã thể hiện hiệu suất nhanh hơn 47 lần so với GPU tiết kiệm năng lượng nhất và hiệu suất năng lượng tốt hơn 73 lần so với GPU có độ trễ thấp nhất. Tuy nhiên, các thành viên cộng đồng đang tìm hiểu sâu hơn về ý nghĩa thực tế của những con số này.
Cuộc thảo luận tiết lộ rằng IBM đã làm việc trên công nghệ này trong hơn một thập kỷ, khiến một số người tự hỏi liệu công ty có hy vọng những người khác sẽ triển khai các phương pháp tương tự và sau đó trả phí cấp phép cho các bằng sáng chế của IBM hay không. Thời gian phát triển dài này cũng đặt ra câu hỏi về lý do tại sao những cải tiến đáng kể như vậy chỉ được công bố bây giờ.
Tuyên bố hiệu suất của NorthPole:
- Nhanh hơn 47 lần so với GPU tiết kiệm năng lượng nhất
- Tiết kiệm năng lượng hơn 73 lần so với GPU có độ trễ thấp nhất
- Được thử nghiệm trên LLM có 3 tỷ tham số (mô hình IBM Granite-8B-Code-Base )
- Thời gian phát triển: hơn 10 năm
Cuộc chiến Kiến trúc: Von Neumann so với Tính toán Trong bộ nhớ
Cộng đồng kỹ thuật đặc biệt tham gia vào việc tranh luận về những thay đổi kiến trúc cơ bản. Thiết kế von Neumann truyền thống, nơi bộ xử lý và bộ nhớ được tách biệt, tạo ra cái mà các chuyên gia gọi là nút thắt cổ chai - bộ xử lý thường xuyên ở trạng thái nhàn rỗi chờ dữ liệu di chuyển qua lại từ bộ nhớ.
Đối với tính toán đa mục đích, thực sự không có gì mạnh mẽ hơn kiến trúc von Neumann.
Nút thắt cổ chai này trở nên đặc biệt có vấn đề đối với khối lượng công việc AI, nơi lượng lớn trọng số mô hình cần được xáo trộn liên tục giữa bộ nhớ và bộ xử lý. Phương pháp của IBM chuyển việc tính toán trực tiếp vào bộ nhớ, loại bỏ phần lớn sự di chuyển dữ liệu này.
Tác động của Nút thắt Von Neumann đối với AI:
- Năng lượng truyền tải dữ liệu: ~90% tổng năng lượng tiêu thụ của khối lượng công việc AI
- Năng lượng tính toán thực tế: ~10% tổng năng lượng tiêu thụ của khối lượng công việc AI
- Nguyên nhân gốc rễ: Việc di chuyển liên tục các trọng số mô hình giữa các đơn vị bộ nhớ và tính toán riêng biệt
So sánh Bối cảnh Cạnh tranh
Các cuộc thảo luận của cộng đồng tiết lộ rằng NorthPole của IBM không hoạt động một mình. Các phương pháp tương tự đang được theo đuổi bởi các công ty như Groq với chip LPU của họ, thiết kế phần cứng của Tenstorrent, và kiến trúc NPU của AMD. Mỗi công ty đang giải quyết vấn đề nút thắt cổ chai bộ nhớ từ các góc độ hơi khác nhau.
Cerebras đã áp dụng một phương pháp cực đoan với chip WSE-3 của họ, tích hợp 44GB bộ nhớ trên chip. Trong khi đó, Groq tập trung vào việc làm cho bộ nhớ cực kỳ nhanh thay vì chuyển tính toán vào chính bộ nhớ. Cuộc tranh luận của cộng đồng tập trung vào phương pháp nào sẽ chứng minh hiệu quả nhất trong các ứng dụng thực tế.
Các kiến trúc chip AI cạnh tranh:
- IBM NorthPole: Tính toán trong bộ nhớ với lưu trữ tương tự
- Groq LPU: Bộ nhớ siêu nhanh (80 terabyte/giây) với sự phân chia tính toán/bộ nhớ truyền thống
- Cerebras WSE-3: 44GB SRAM trên chip
- Tenstorrent: Dung lượng SRAM cao với mức giá cạnh tranh
- AMD NPU: Các đơn vị xử lý thần kinh tùy chỉnh
![]() |
---|
Các chuyên gia trong ngành thảo luận về các phương pháp đổi mới để vượt qua nút thắt bộ nhớ trong máy tính |
Sự hồi sinh Bộ nhớ Analog tạo ra Sự phấn khích
Một khía cạnh tạo ra sự nhiệt tình thực sự là việc IBM sử dụng bộ nhớ analog để lưu trữ trọng số mô hình. Điều này đại diện cho sự trở lại hấp dẫn với các khái niệm tính toán analog đã bị từ bỏ phần lớn hàng thập kỷ trước để ủng hộ độ chính xác kỹ thuật số.
Cộng đồng đánh giá cao sự tinh tế của phương pháp này - vì trọng số mô hình AI không cần độ chính xác hoàn hảo, lưu trữ analog có thể cung cấp lợi ích hiệu suất khổng lồ trong khi thêm nhiễu có lợi có thể thực sự cải thiện hiệu suất mô hình. Sự không chính xác này, thay vì là một nhược điểm, có thể hoạt động như biến thiên nhiệt độ tích hợp giúp ngăn chặn overfitting.
![]() |
---|
Blog của IBM thảo luận về những hạn chế của kiến trúc von Neumann đối với điện toán AI |
Thực tế Thị trường so với Đổi mới Kỹ thuật
Bất chấp những thành tựu kỹ thuật ấn tượng, tình cảm của cộng đồng cho thấy sự thận trọng về tác động thực tế ngay lập tức. Những cải tiến, mặc dù đáng kể trong điều kiện phòng thí nghiệm, có thể đại diện cho tiến bộ gia tăng hơn là đột phá cách mạng khi triển khai trong các tình huống thực tế.
Cuộc thảo luận rộng lớn hơn phản ánh những thách thức đang diễn ra của ngành về chi phí tính toán AI và tiêu thụ năng lượng. Trong khi các kiến trúc mới như NorthPole cung cấp những hướng đi đầy hứa hẹn, cộng đồng nhận ra rằng việc áp dụng thực tế sẽ phụ thuộc vào các yếu tố ngoài con số hiệu suất thô, bao gồm khả năng tương thích phần mềm, chi phí sản xuất và hỗ trợ hệ sinh thái.
Tham khảo: Why a decades old architecture decision is impeding the power of AI computing