SimpleFold của Apple thách thức độ phức tạp của việc gấp nếp protein với mô hình Transformer 3 tỷ tham số

Nhóm Cộng đồng BigGo
SimpleFold của Apple thách thức độ phức tạp của việc gấp nếp protein với mô hình Transformer 3 tỷ tham số

Apple đã phát hành SimpleFold , một mô hình gấp nếp protein sử dụng kiến trúc transformer tiêu chuẩn thay vì các thiết kế chuyên biệt phức tạp thường được yêu cầu cho bài toán khoa học đầy thách thức này. Mô hình này đại diện cho một sự thay đổi đáng kể trong cách tiếp cận, chứng minh rằng các phương pháp đơn giản hơn có thể đạt được kết quả cạnh tranh trong việc dự đoán cách các protein gấp nếp thành cấu trúc ba chiều của chúng.

Thông số kỹ thuật của mô hình SimpleFold

  • Kích thước tham số: 100M, 360M, 700M, 1.1B, 1.6B, 3B
  • Dữ liệu huấn luyện: Hơn 8.6 triệu cấu trúc protein (92% từ các dự đoán được tạo bởi AI)
  • Kiến trúc: Các lớp transformer tiêu chuẩn không có các module chuyên biệt
  • Backend: Hỗ trợ PyTorch và MLX
  • Tương thích phần cứng: Chạy cục bộ trên Apple M2 Max 64GB
Ảnh chụp màn hình kho lưu trữ GitHub SimpleFold , thể hiện mô hình dự đoán cấu trúc protein mới của Apple
Ảnh chụp màn hình kho lưu trữ GitHub SimpleFold , thể hiện mô hình dự đoán cấu trúc protein mới của Apple

Huấn luyện trên dữ liệu tổng hợp đặt ra câu hỏi về tính đơn giản thực sự

Cộng đồng đã nêu ra những lo ngại quan trọng về phương pháp huấn luyện của SimpleFold . Mặc dù bản thân kiến trúc mô hình đơn giản hơn, nhưng nó phụ thuộc rất nhiều vào dữ liệu tổng hợp được tạo ra bởi các mô hình phức tạp hơn như AlphaFold . Hơn 90% dữ liệu huấn luyện của SimpleFold đến từ các dự đoán được thực hiện bởi các hệ thống AI tinh vi sử dụng căn chỉnh đa trình tự (MSAs) và các kiến trúc chuyên biệt.

Không phải là chúng ta có thể loại bỏ tất cả các thiên hướng quy nạp và máy móc MSA , ai đó ở phía trên vẫn phải xây dựng và chạy những mô hình đó để tạo ra kho dữ liệu huấn luyện.

Sự phụ thuộc này có nghĩa là mặc dù kiến trúc của SimpleFold được tinh gọn, độ phức tạp về cơ bản đã được chuyển từ thiết kế mô hình sang giai đoạn chuẩn bị dữ liệu. Cách tiếp cận này giống như cách các mô hình ngôn ngữ nhỏ hơn được chưng cất từ những mô hình lớn hơn, kế thừa kiến thức mà không cần cùng tài nguyên tính toán trong quá trình suy luận.

Nguồn Dữ Liệu Huấn Luyện

  • Cấu trúc thực nghiệm PDB : ~8% dữ liệu huấn luyện
  • Dự đoán AlphaFold SwissProt : ~270K mục tiêu
  • Dự đoán AFESM : ~1.9M mục tiêu
  • AFESM mở rộng ( AFESM-E ): tổng cộng ~8.6M mục tiêu
  • Xử lý dữ liệu: Sử dụng mục tiêu flow-matching cho huấn luyện sinh tạo

Tiềm năng mở rộng và ý nghĩa tương lai

Bất chấp những câu hỏi về sự phụ thuộc dữ liệu, kiến trúc của SimpleFold mang lại những lợi thế đáng kể cho việc mở rộng và triển khai. Mô hình có từ 100 triệu đến 3 tỷ tham số và có thể chạy cục bộ trên phần cứng tiêu dùng, bao gồm cả hệ thống M2 Max của Apple . Khả năng tiếp cận này có thể dân chủ hóa các dự đoán gấp nếp protein cho các phòng thí nghiệm nghiên cứu nhỏ hơn và các công ty công nghệ sinh học trước đây không thể chi trả tài nguyên tính toán cần thiết bởi các mô hình phức tạp hơn.

Cộng đồng nghiên cứu coi điều này như một phần của xu hướng rộng lớn hơn trong học máy, nơi các kiến trúc đơn giản hơn cuối cùng sẽ sánh bằng hoặc vượt qua hiệu suất của các hệ thống phức tạp hơn. Xu hướng này đã được quan sát thấy trong nhiều lĩnh vực khác nhau, từ thị giác máy tính đến xử lý ngôn ngữ tự nhiên, cho thấy SimpleFold có thể đại diện cho một bước đệm quan trọng hơn là một điểm đến cuối cùng.

Điểm chuẩn hiệu suất

  • CASP14 : Cạnh tranh với các baseline tiên tiến nhất
  • CAMEO22 : Duy trì hiệu suất trên các kích thước mô hình khác nhau
  • Apo / CoDNaS : Thể hiện khả năng dự đoán tổng hợp
  • Tốc độ suy luận: Được tối ưu hóa cho triển khai phần cứng cục bộ
  • Đánh giá: Sử dụng các chỉ số OpenStructure 2.9.1 và TMscore

Ứng dụng thực tế và lợi ích suy luận cục bộ

Khả năng chạy trên phần cứng cục bộ của SimpleFold giải quyết các rào cản thực tế trong nghiên cứu dược phẩm. Các công ty công nghệ sinh học nhỏ giờ đây có thể thực hiện dự đoán cấu trúc protein mà không cần dựa vào các dịch vụ đám mây hoặc các cụm máy tính đắt tiền. Mô hình hỗ trợ cả backend PyTorch và MLX , với tối ưu hóa đặc biệt cho phần cứng Apple .

Sự chuyển đổi hướng tới suy luận cục bộ loại bỏ sự phụ thuộc vào các dịch vụ bên ngoài và giảm chi phí liên quan đến dự đoán gấp nếp protein. Khả năng tiếp cận này có thể đẩy nhanh nghiên cứu trong khám phá thuốc và kỹ thuật protein, nơi mà việc lặp lại nhanh chóng và kiểm tra giả thuyết là rất quan trọng cho tiến bộ.

Hạn chế và các cuộc tranh luận đang diễn ra

Mặc dù SimpleFold đạt được hiệu suất cạnh tranh trên các tiêu chuẩn đánh giá tiêu chuẩn, nó vẫn phải đối mặt với những hạn chế cơ bản của tất cả các phương pháp gấp nếp dựa trên AI hiện tại. Những cách tiếp cận thống kê này hoạt động tốt cho các protein tương tự như những protein trong dữ liệu huấn luyện nhưng gặp khó khăn với các họ protein mới hoặc những protein thiếu họ hàng tiến hóa gần.

Lĩnh vực gấp nếp protein tiếp tục tranh luận về việc liệu MSAs và các kiến trúc phức tạp có đại diện cho những thiên hướng quy nạp cần thiết hay chỉ đơn giản là các điểm tối ưu cục bộ có thể được khắc phục bằng dữ liệu tốt hơn và các mô hình đơn giản hơn. SimpleFold đóng góp vào cuộc thảo luận này bằng cách chứng minh rằng độ phức tạp kiến trúc không phải lúc nào cũng cần thiết cho hiệu suất tốt.

Tham khảo: SimpleFold: Folding Proteins is Simpler than You Think