Chatbot R1 của DeepSeek đã gây ra cuộc tranh luận gay gắt trong cộng đồng AI, không chỉ vì hiệu suất ấn tượng với chi phí chỉ bằng một phần nhỏ, mà còn vì các phương pháp được sử dụng để đạt được điều đó. Trong khi bài viết gốc tập trung vào distillation như một khái niệm chung, các cuộc thảo luận trong cộng đồng tiết lộ những khác biệt kỹ thuật quan trọng giải thích cả tranh cãi và đột phá này.
Hai phương pháp Distillation khác biệt tạo ra các khả năng khác nhau
Cộng đồng AI đã xác định hai cách tiếp cận khác biệt cơ bản đối với model distillation. Phương pháp đầu tiên, completion-based distillation, hoạt động chỉ thông qua truy cập API. Các công ty có thể truy vấn một mô hình lớn hơn với các câu hỏi cụ thể và sử dụng những phản hồi đó để huấn luyện các mô hình nhỏ hơn. Cách tiếp cận này không yêu cầu quyền truy cập đặc biệt vào hoạt động nội bộ của mô hình gốc.
Phương pháp thứ hai liên quan đến việc truy cập trực tiếp vào các biểu diễn nội bộ và phân phối xác suất của mô hình. Kỹ thuật này yêu cầu quyền truy cập đầy đủ vào kiến trúc của mô hình gốc và chỉ có thể được thực hiện bởi những người tạo ra mô hình. Nó thường được các công ty sử dụng để tạo ra các biến thể nhỏ hơn của riêng họ như các phiên bản mini hoặc flash.
Truy cập API: Application Programming Interface - cách mà người dùng bên ngoài có thể tương tác với một dịch vụ mà không cần truy cập vào mã nội bộ của nó
Hai Loại Chưng Cất Mô Hình AI
Phương pháp | Quyền truy cập yêu cầu | Trường hợp sử dụng | Người dùng |
---|---|---|---|
Dựa trên completion | Chỉ cần truy cập API | Các công ty bên ngoài huấn luyện các mô hình nhỏ hơn | Nhà phát triển bên thứ ba |
Logit/Biểu diễn nội bộ | Truy cập đầy đủ mô hình | Tạo ra các phiên bản nhỏ hơn chính thức | Người tạo ra mô hình gốc |
Cách tiếp cận của DeepSeek thách thức các giả định trong ngành
DeepSeek được báo cáo là đã sử dụng phương pháp đầu tiên, lấy khoảng 800.000 response traces từ mô hình R1 của họ và áp dụng chúng cho các mô hình nhỏ hơn. Nghiên cứu gần đây cho thấy quá trình này có thể cực kỳ hiệu quả. Mô hình Sky-T1 của Đại học California, Berkeley đã đạt được kết quả tương tự như các mô hình lớn hơn nhiều khi sử dụng ít hơn 2.000 traces, với chi phí huấn luyện dưới 450 đô la Mỹ.
Hiệu quả này thách thức trực tiếp các câu chuyện gây quỹ của các công ty AI lớn. OpenAI đã huy động 40 tỷ đô la Mỹ trong khi Anthropic đảm bảo 10 tỷ đô la Mỹ, cả hai đều viện dẫn nhu cầu về phần cứng đắt tiền để huấn luyện các mô hình lớn hơn. Thành công của DeepSeek cho thấy việc sử dụng distillation một cách chiến lược có thể đạt được kết quả tương đương mà không cần đầu tư hạ tầng khổng lồ.
Hiệu quả huấn luyện DeepSeek R1
- Dấu vết huấn luyện được sử dụng: ~800.000 dấu vết phản hồi
- Mô hình Berkeley Sky-T1: Đạt được kết quả tương tự với <2.000 dấu vết
- Chi phí huấn luyện: Ít hơn 450 USD cho Sky-T1
- Phương pháp: Chưng cất dựa trên hoàn thành thông qua truy cập API
![]() |
---|
Minh họa các kỹ thuật AI tiên tiến trong chưng cất, làm nổi bật cách tiếp cận sáng tạo của DeepSeek thách thức các mô hình truyền thống |
Phản ứng của ngành và đổi mới đang diễn ra
Tiết lộ này đã gây ra những phản ứng trái chiều trong toàn ngành công nghệ. Một số người xem cách tiếp cận của DeepSeek là tối ưu hóa sáng tạo, trong khi những người khác đặt câu hỏi liệu việc sử dụng phản hồi API từ đối thủ cạnh tranh có phải là thực hành công bằng hay không. Tuy nhiên, bản thân distillation vẫn là một kỹ thuật tiêu chuẩn trong ngành, với các công ty như Google, OpenAI, và Amazon cung cấp nó như một dịch vụ.
Distillation là một trong những công cụ quan trọng nhất mà các công ty có ngày nay để làm cho các mô hình hiệu quả hơn
Kỹ thuật này tiếp tục phát triển vượt ra ngoài các ứng dụng ban đầu từ năm 2015. Các nhà nghiên cứu hiện đang áp dụng distillation cho các mô hình suy luận chain-of-thought, sử dụng các quá trình suy nghĩ nhiều bước để giải quyết vấn đề phức tạp. Điều này cho thấy tiềm năng của phương pháp này mở rộng xa hơn việc nén mô hình đơn giản.
Gây quỹ trong ngành so với cách tiếp cận của DeepSeek
- Nguồn vốn của OpenAI: Huy động được 40 tỷ USD
- Nguồn vốn của Anthropic: Huy động được 10 tỷ USD
- Mục đích được tuyên bố: Mua các máy chủ Nvidia đắt tiền cho các mô hình lớn hơn
- Thách thức từ DeepSeek: Đạt được kết quả tương đương với một phần nhỏ tài nguyên
![]() |
---|
Tượng trưng cho sự tương tác với công nghệ AI, hình ảnh này phản ánh cách tiếp cận đang phát triển của ngành công nghiệp đối với chưng cất trong phát triển AI |
Tác động tương lai đối với phát triển AI
Cuộc tranh luận về distillation làm nổi bật một câu hỏi rộng lớn hơn về hiệu quả phát triển AI. Nếu các mô hình nhỏ hơn, được distilled có thể đạt được hiệu suất tương đương với các đối tác lớn hơn của chúng, ngành công nghiệp có thể cần xem xét lại sự nhấn mạnh vào quy mô và sức mạnh tính toán. Sự thay đổi này có thể dân chủ hóa phát triển AI, làm cho các khả năng tiên tiến có thể tiếp cận được với các tổ chức không có ngân sách khổng lồ.
Tranh cãi này cũng nhấn mạnh động lực cạnh tranh trong phát triển AI, nơi các kỹ thuật để tạo ra các mô hình hiệu quả trở nên có giá trị như chính các mô hình. Khi lĩnh vực này trưởng thành, khả năng trích xuất hiệu suất tối đa từ tài nguyên tối thiểu có thể chứng minh quan trọng hơn sức mạnh tính toán thô.
Tham khảo: How Distillation Makes AI Models Smaller and Cheaper