Các nhà nghiên cứu đã chứng minh việc sử dụng trí tuệ nhân tạo để tự động tạo ra các kernel Metal cho thiết bị Apple , tuyên bố cải thiện hiệu suất lên đến 87% trong suy luận PyTorch . Tuy nhiên, cộng đồng công nghệ đang đặt ra những câu hỏi quan trọng về phương pháp luận và ý nghĩa thực tế của cách tiếp cận này.
Nghiên cứu được xây dựng trên KernelBench , một bộ dữ liệu được phát hành vào tháng 11 năm 2024 chứa khoảng 250 module PyTorch để kiểm tra việc tạo kernel. Nhóm nghiên cứu đã sử dụng nhiều mô hình AI khác nhau, bao gồm GPT-5 , để dịch các kernel CUDA hiện có thành các kernel Metal có thể chạy hiệu quả trên hệ sinh thái phần cứng của Apple .
Tuyên bố về Hiệu suất và Phương pháp:
- Cải thiện được báo cáo: Suy luận PyTorch nhanh hơn tới 87%
- Cơ sở so sánh: Suy luận PyTorch chưa được tối ưu hóa so với các kernel Metal tùy chỉnh
- Tập dữ liệu: ~250 module PyTorch từ KernelBench (phát hành tháng 11 năm 2024)
- Lợi ích của biên dịch ngoại tuyến: Cải thiện ~20% thời gian thực thi
- Tối ưu hóa tài nguyên GPU: Giảm ~25% độ trễ và chi phí của agent
![]() |
---|
Tổng quan về các kernel Metal được tạo bởi AI cải thiện hiệu suất suy luận PyTorch trên các thiết bị Apple |
Bối cảnh triển khai gây ra tranh luận
Một điểm thảo luận chính tập trung vào việc so sánh cơ sở được sử dụng trong nghiên cứu. Các nhà phê bình cho rằng việc so sánh suy luận PyTorch chưa được tối ưu hóa với các kernel tùy chỉnh tạo ra một lợi thế không công bằng, vì PyTorch thường được sử dụng để tạo nguyên mẫu thay vì triển khai sản xuất. Trong các tình huống thực tế, các nhà phát triển thường xuất các mô hình sang các định dạng như ONNX trước khi biên dịch chúng cho các thiết bị cụ thể.
Tuy nhiên, những người ủng hộ phản bác rằng cách tiếp cận này giải quyết một nhu cầu thực sự trong quy trình phát triển. Nhiều dự án mã nguồn mở, đặc biệt là trong AI tạo sinh, thực sự dựa rất nhiều vào PyTorch cho cả phát triển và triển khai do tính linh hoạt và dễ sử dụng của nó.
Mối quan ngại về độ chính xác kỹ thuật
Nghiên cứu tiết lộ một số vấn đề độ chính xác đáng lo ngại với các kernel được tạo bởi AI . Trong khi GPT-5 đã dịch thành công các kernel 97% thời gian cho các hoạt động đơn giản và 88% cho các kiến trúc phức tạp, phần lớn các kernel được tạo ra thực sự hoạt động chậm hơn so với các triển khai tham chiếu.
Đáng lo ngại hơn là dung sai lỏng lẻo được sử dụng để kiểm tra tính chính xác. Các nhà nghiên cứu cho phép dung sai 0.01 trong cả phép đo lỗi tương đối và tuyệt đối khi so sánh đầu ra. Đối với các kernel tính toán số, dung sai này có vẻ cao bất thường và có thể che giấu các lỗi tính toán đáng kể.
Đối với một kernel số, điều này có vẻ quá lỏng lẻo, nhưng hóa ra những giới hạn đó đến thẳng từ KernelBench , chỉ kiểm tra tính chính xác trên 5 đầu vào ngẫu nhiên theo mặc định trong khung kiểm tra của họ, không phải 100 như họ đã sử dụng ở đây.
Tỷ lệ thành công của mô hình AI trong việc tạo Metal Kernel:
- Cấp độ 1 (Các phép toán đơn lẻ): 97% dịch thuật thành công
- Cấp độ 3 (Kiến trúc phức tạp): 88% dịch thuật thành công
- Kiểm tra độ chính xác: dung sai 0.01 cho sai số tương đối và tuyệt đối
- Phương pháp kiểm tra: 100 đầu vào ngẫu nhiên cho mỗi kernel (so với 5 trong KernelBench gốc)
Các cách tiếp cận thay thế và hướng tương lai
Thảo luận cộng đồng cũng đề cập đến các giải pháp thay thế cho tối ưu hóa đa nền tảng. Một số nhà phát triển đề xuất rằng các công cụ như Tinygrad hoặc các ngôn ngữ như Mojo , JAX , hoặc Julia có thể cung cấp các giải pháp dài hạn tốt hơn cho việc tạo và tối ưu hóa kernel tự động.
Cách tiếp cận đàn tác nhân được đề cập trong nghiên cứu, nơi nhiều mô hình AI tạo ra các kernel song song trước khi chọn ra người thực hiện tốt nhất, đã thu hút một số hoài nghi. Các nhà phê bình lưu ý rằng việc đơn giản chạy tám mô hình khác nhau và chọn kết quả nhanh nhất, mặc dù về mặt kỹ thuật là một cách tiếp cận đàn, có thể không biện minh cho thuật ngữ này.
Câu hỏi về triển khai thực tế
Bất chấp những lo ngại kỹ thuật, nghiên cứu chứng minh rằng AI có thể tạo ra thành công các kernel Metal hoạt động cho thiết bị Apple . Cách tiếp cận này cho thấy tiềm năng đặc biệt cho các kernel Cấp 2, liên quan đến việc kết hợp nhiều hoạt động lại với nhau - một lĩnh vực có thể có nhiều cơ hội tối ưu hóa hơn so với các hoạt động đơn lẻ đơn giản hoặc các kiến trúc đầy đủ phức tạp.
Các nhà nghiên cứu chưa phát hành các kernel được tạo ra hoặc mã triển khai của họ, mặc dù tỷ lệ thành công cao với GPT-5 cho thấy rằng các nhà phát triển có thể tái tạo các kết quả tương tự bằng cách sử dụng bộ dữ liệu KernelBench có sẵn công khai.
Mặc dù nghiên cứu này đại diện cho một bước tiến thú vị hướng tới tối ưu hóa kernel tự động, phản ứng của cộng đồng làm nổi bật nhu cầu về các tiêu chuẩn độ chính xác nghiêm ngặt hơn và so sánh rõ ràng hơn với các thực hành triển khai hiện có. Cách tiếp cận này có thể chứng minh giá trị nhất như một công cụ phát triển thay vì thay thế cho các pipeline tối ưu hóa đã được thiết lập.
Tham khảo: Speeding up PyTorch Inference by 87% on Apple devices with AI-generated Metal kernels