Cộng đồng công nghệ đặt câu hỏi về những tuyên bố cốt lõi đằng sau giả thuyết "Lottery Ticket" giải thích thành công của AI

Nhóm Cộng đồng BigGo
Cộng đồng công nghệ đặt câu hỏi về những tuyên bố cốt lõi đằng sau giả thuyết "Lottery Ticket" giải thích thành công của AI

Một bài viết gần đây tuyên bố rằng giả thuyết lottery ticket giải thích tại sao các mô hình AI khổng lồ hoạt động hiệu quả đã gây ra cuộc tranh luận sôi nổi trong cộng đồng công nghệ, với các chuyên gia đặt câu hỏi về cả những tuyên bố lịch sử và giải thích kỹ thuật được trình bày.

Những tuyên bố lịch sử bị chất vấn

Khẳng định của bài viết rằng nghiên cứu AI có lịch sử 300 năm đã ngay lập tức gây ra sự hoài nghi từ cộng đồng. Mặc dù một số khái niệm thống kê như hồi quy tuyến tính thực sự có từ khoảng 220 năm trước với công trình của Legendre vào năm 1805, các chuyên gia chỉ ra rằng bản thân sự đánh đổi bias-variance còn rất mới. Tuyên bố rộng rãi rằng nguyên tắc này chi phối mọi hệ thống học tập trong ba thế kỷ dường như là một sự phóng đại nhầm lẫn các khái niệm machine learning hiện đại với các phương pháp thống kê cũ hơn nhiều.

Dòng thời gian lịch sử:

  • ~1805: Legendre mô tả hồi quy tuyến tính (~220 năm trước)
  • 2018: Giả thuyết vé số được giới thiệu bởi Frankle và Carbin tại MIT
  • 2019: Hiện tượng giảm kép được ghi nhận bởi Belkin và các đồng nghiệp
  • Hiện tại: Các mô hình hỗn hợp chuyên gia triển khai kích hoạt tham số có chọn lọc

Các giải thích thay thế cho thành công của mô hình AI

Các thành viên cộng đồng đang đề xuất những giải thích đơn giản hơn cho lý do tại sao các mô hình ngôn ngữ lớn hoạt động hiệu quả. Một phản biện quan trọng cho rằng đột phá không phải chỉ về kích thước mô hình, mà là về việc định khung các vấn đề như các tác vụ dự đoán từ tiếp theo. Cách tiếp cận này tạo ra khả năng truy cập vào các bộ dữ liệu quy mô internet với hàng nghìn tỷ ví dụ được gán nhãn, cung cấp cấu trúc phong phú cần thiết để làm cho các mô hình lớn trở nên hữu ích.

LLM không bác bỏ sự đánh đổi bias-variance; chúng ta chỉ tìm thấy nhiều dữ liệu hơn và GPU để học từ nó.

Vai trò của những tiến bộ tính toán không thể được đánh giá thấp. Sự gia tăng lớn về sức mạnh tính toán có sẵn trong thập kỷ qua đã làm cho việc huấn luyện vốn có thể mất cả đời người đột nhiên trở nên khả thi, mở ra những khả năng hoàn toàn mới cho việc mở rộng quy mô mô hình.

Những lo ngại kỹ thuật về giải thích Lottery Ticket

Một số vấn đề kỹ thuật đã nổi lên trong các cuộc thảo luận của cộng đồng về giải thích giả thuyết lottery ticket. Một chuyên gia lưu ý rằng bài viết cung cấp một giải thích thực sự tồi/sai về giả thuyết lottery ticket thực tế, tham chiếu đến bài nghiên cứu gốc để so sánh.

Câu hỏi về overfitting vẫn còn gây tranh cãi. Một số người cho rằng những gì chúng ta đang thấy không phải là sự vắng mặt của overfitting, mà là overfitting ẩn chỉ trở nên rõ ràng khi các mô hình gặp phải các ví dụ đối kháng - những đầu vào được chế tạo cẩn thận để phơi bày việc ghi nhớ của mô hình thay vì sự hiểu biết thực sự.

Ý nghĩa thực tế và hiệu quả mô hình

Nếu giả thuyết lottery ticket chính xác như được trình bày, nó sẽ đặt ra những câu hỏi quan trọng về hiệu quả mô hình. Các thành viên cộng đồng chỉ ra rằng nếu 99% trọng số mô hình đại diện cho các lottery ticket thất bại, điều này sẽ làm cho hầu hết tính toán suy luận trở nên không cần thiết. Tuy nhiên, thực tế phức tạp hơn - các tập con khác nhau của trọng số hoạt động cho các loại vấn đề khác nhau, làm cho toàn bộ mạng cần thiết cho hiệu suất đa mục đích.

Các kỹ thuật hiện đại như mô hình mixture of experts đã triển khai nguyên tắc này ở một mức độ nào đó, với chỉ các phần nhỏ của tổng số tham số hoạt động cho bất kỳ đầu vào nào, cho thấy lĩnh vực này đã chuyển hướng sang các kiến trúc hiệu quả hơn.

So sánh Quy mô Mô hình:

  • Sự phát triển của dòng GPT : 117 triệu → 175 tỷ tham số
  • Mô hình Kimi K2 : 32B tham số hoạt động trên tổng số 1T (3.2% hoạt động)
  • Khả năng cắt tỉa: Có thể loại bỏ tới 96% tham số mà không làm giảm độ chính xác

Câu hỏi về trí tuệ vẫn còn mở

Có lẽ cuộc tranh luận cơ bản nhất tập trung vào ý nghĩa của tất cả điều này đối với việc hiểu bản thân trí tuệ. Một số thành viên cộng đồng cho rằng nếu giải thích là đúng, nó có thể chỉ ra rằng những hệ thống này hoàn toàn không thực sự thông minh - chúng chỉ đơn giản là những hệ thống khớp mẫu rất tinh vi với kiến thức nền rộng lớn.

Cuộc thảo luận tiết lộ một căng thẳng sâu sắc hơn trong nghiên cứu AI giữa những người xem các mô hình lớn hiện tại như những bước đệm đến trí tuệ thực sự và những người xem chúng như những hệ thống bị giới hạn cơ bản mà xuất sắc trong nhận dạng mẫu thống kê mà không có sự hiểu biết thực sự.

Khi lĩnh vực AI tiếp tục phát triển nhanh chóng, những cuộc tranh luận này làm nổi bật tầm quan trọng của phân tích nghiêm ngặt và đánh giá đồng nghiệp trong việc hiểu tại sao các hệ thống mạnh nhất của chúng ta hoạt động - và những hạn chế của chúng có thể là gì.

Tham khảo: How Al researchers accidentally discovered that everything they thought about learning was wrong