Các nhà nghiên cứu Google đã công bố một phương pháp active learning giúp cắt giảm đáng kể lượng dữ liệu huấn luyện cần thiết để tinh chỉnh các mô hình ngôn ngữ lớn (LLM) trong các ứng dụng an toàn quảng cáo. Phương pháp này được báo cáo là giảm yêu cầu huấn luyện từ 100.000 ví dụ xuống dưới 500 trong khi cải thiện sự phù hợp của mô hình với các chuyên gia con người lên đến 65%. Tuy nhiên, cộng đồng công nghệ đang đặt ra những câu hỏi quan trọng về ý nghĩa thực tiễn và hiệu quả thực tế của những tuyên bố này.
Kết quả Giảm thiểu Dữ liệu Huấn luyện:
- Phương pháp truyền thống: ~100.000 mẫu huấn luyện
- Phương pháp học tích cực mới: Dưới 500 mẫu huấn luyện
- Hệ số giảm thiểu: Lên đến 10.000 lần (4 bậc độ lớn)
- Cải thiện độ phù hợp của mô hình: Tăng lên đến 65%
Sự hoài nghi của cộng đồng về các tuyên bố chất lượng quảng cáo
Khẳng định trong bài nghiên cứu rằng chưa đến 1% quảng cáo sản xuất là clickbait đã gây ra cuộc tranh luận đáng kể trong cộng đồng nhà phát triển và người dùng. Nhiều thành viên cộng đồng cảm thấy khó tin vào thống kê này dựa trên trải nghiệm duyệt web hàng ngày của họ. Sự không nhất quán giữa dữ liệu nội bộ của Google và trải nghiệm người dùng đã dẫn đến các cuộc thảo luận rộng hơn về cách các công ty công nghệ đo lường và định nghĩa nội dung có vấn đề.
Một số người dùng đã chia sẻ những câu chuyện đáng lo ngại về việc gặp phải những lừa đảo rõ ràng trong hệ thống quảng cáo của Google, đặc biệt là trên các nền tảng như Facebook nơi quảng cáo bán nhạc cụ giả và quảng cáo tặng quà lừa đảo xuất hiện thường xuyên. Những báo cáo này làm nổi bật khoảng cách tiềm tàng giữa những gì hệ thống tự động phân loại là có vấn đề so với những gì người dùng thực sự gặp phải.
Triển khai kỹ thuật đặt ra câu hỏi
Phương pháp clustering được mô tả trong nghiên cứu đã tạo ra cuộc thảo luận kỹ thuật đáng kể. Các thành viên cộng đồng đang đặt câu hỏi về cách hệ thống có thể tạo ra các cluster chồng chéo khi các ví dụ được gắn nhãn được cho là riêng biệt. Bài báo thiếu các chi tiết cụ thể về việc sử dụng mô hình embedding nào cho clustering và loại thuật toán clustering nào vận hành hệ thống.
Một số người thực hành có kinh nghiệm đã lưu ý rằng các LLM thông thường không tạo ra embedding hiệu quả cho các tác vụ clustering, gợi ý rằng các mô hình embedding chuyên biệt bổ sung có thể được sử dụng. Sự mơ hồ kỹ thuật này đã khiến một số người tự hỏi liệu các chi tiết triển khai quan trọng có đang bị che giấu một cách có chủ ý hay không.
Thiết lập Thí nghiệm:
- Các mô hình được kiểm tra: Gemini Nano-1 (1.8 tỷ tham số), Nano-2 (3.25 tỷ tham số)
- Số vòng lặp cần thiết: 5-6 vòng
- Mẫu huấn luyện cuối cùng: 250-400 ví dụ
- Mẫu đánh giá cuối cùng: 150-250 ví dụ
- Cân bằng lớp đạt được: ~40% ví dụ tích cực (so với 5% ban đầu)
![]() |
---|
Hình minh họa này mô tả quá trình phân cụm các điểm dữ liệu, phản ánh những mối quan ngại và thảo luận kỹ thuật xung quanh phương pháp phân cụm của Google |
Thành tích trái chiều của Active Learning
Cộng đồng nghiên cứu đã bày tỏ sự hoài nghi có chừng mực về các phương pháp active learning nói chung. Một số người thực hành đã tiến hành các nghiên cứu thực nghiệm kỹ lưỡng cho thấy việc lấy mẫu ngẫu nhiên đôi khi có thể vượt trội hơn các chiến lược active learning phức tạp trong các tác vụ phân loại văn bản. Phát hiện này thách thức tiền đề cơ bản rằng các ví dụ huấn luyện được chọn lọc cẩn thận luôn dẫn đến kết quả tốt hơn.
Tuy nhiên, những người khác đã báo cáo thành công với các pipeline active learning định lượng cả độ bất định aleatoric và epistemic để hướng dẫn các nỗ lực gắn nhãn. Những phương pháp này có xu hướng phức tạp hơn nhưng có thể cung cấp điểm tin cậy có giá trị cho người dùng cuối.
Active Learning là một lĩnh vực rất khó để làm đúng... qua nhiều năm tôi đã có may mắn trái chiều với phân loại văn bản, đến mức tôi và đồng nghiệp quyết định thực hiện một nghiên cứu thực nghiệm kỹ lưỡng chuẩn hóa các thiết lập thí nghiệm khác nhau mà các bài báo riêng lẻ đã báo cáo. Chúng tôi quan sát thấy rằng sau khi chuẩn hóa, việc chọn ngẫu nhiên các trường hợp để gắn nhãn thậm chí còn tốt hơn!
Chỉ số Hiệu suất Mô hình:
- Sự đồng nhất nội bộ của chuyên gia (Cohen's Kappa): 0.81 (độ phức tạp thấp hơn), 0.78 (độ phức tạp cao hơn)
- Sự đồng nhất giữa mô hình và chuyên gia: 0.59 (độ phức tạp thấp hơn), 0.41 (độ phức tạp cao hơn)
- Ngưỡng Kappa chấp nhận được: Trên 0.4
- Ngưỡng Kappa xuất sắc: Trên 0.8
Ý nghĩa rộng hơn cho việc huấn luyện AI
Nghiên cứu này đề cập đến một thách thức quan trọng trong phát triển AI: nhu cầu về dữ liệu huấn luyện chất lượng cao trong khi quản lý chi phí và thích ứng với các yêu cầu thay đổi. Khả năng huấn luyện lại mô hình với số lượng ví dụ mới tối thiểu có thể đặc biệt có giá trị trong các lĩnh vực phát triển nhanh như kiểm duyệt nội dung và phát hiện gian lận.
Phương pháp này kết hợp khả năng bao phủ rộng của LLM với chuyên môn tập trung của các chuyên gia chú thích con người trên các trường hợp biên khó khăn. Phương pháp lai này đại diện cho một con đường tiềm năng để làm cho việc huấn luyện AI hiệu quả hơn và phản ứng nhanh hơn với nhu cầu thế giới thực.
Cuộc thảo luận cộng đồng cho thấy cả sự phấn khích về tiềm năng huấn luyện AI hiệu quả hơn và sự hoài nghi lành mạnh về việc liệu những cải tiến được báo cáo có chuyển thành trải nghiệm người dùng tốt hơn hay không. Khi các hệ thống AI trở nên phổ biến hơn trong các ứng dụng kiểm duyệt nội dung và an toàn, khoảng cách giữa các chỉ số kỹ thuật và sự hài lòng của người dùng vẫn là một thách thức chính cho ngành công nghiệp.
Tham khảo: Achieving 10,000x training data reduction with high-fidelity labels
![]() |
---|
Hình ảnh này làm nổi bật nghiên cứu của Google về việc đạt được sự giảm thiểu dữ liệu huấn luyện đáng kể cho các mô hình AI, nhấn mạnh tiềm năng cải thiện hiệu quả AI trong các ứng dụng thực tế |