Cộng đồng công nghệ thách thức đề xuất "Kiểm soát dựa trên phân bổ" để truy cập dữ liệu riêng tư trong huấn luyện AI

Nhóm Cộng đồng BigGo
Cộng đồng công nghệ thách thức đề xuất "Kiểm soát dựa trên phân bổ" để truy cập dữ liệu riêng tư trong huấn luyện AI

Một đề xuất gần đây nhằm mở khóa dữ liệu nhiều hơn hàng triệu lần cho việc huấn luyện AI thông qua Attribution-Based Control (ABC) đã gây ra cuộc tranh luận sôi nổi trong cộng đồng công nghệ. Đề xuất này cho rằng các mô hình AI hiện tại bị hạn chế nghiêm trọng về dữ liệu, chỉ sử dụng vài trăm terabyte trong khi thế giới chứa 500.000 exabyte thông tin số chưa được khai thác.

Kích thước dữ liệu huấn luyện AI hiện tại so với dữ liệu toàn cầu

  • Các mô hình AI hàng đầu sử dụng 2-180 TB dữ liệu huấn luyện
  • Dữ liệu số hóa toàn cầu: ~500.000 exabyte (500.000.000.000 TB)
  • Tỷ lệ: Dữ liệu riêng tư lớn hơn khoảng 1 triệu lần so với các bộ dữ liệu huấn luyện hiện tại

Tính khả thi kỹ thuật bị chỉ trích

Cộng đồng đã nêu ra những lo ngại nghiêm trọng về nền tảng kỹ thuật của đề xuất ABC. Các nhà phê bình chỉ ra rằng mã hóa đồng hình, một thành phần chính của cơ sở hạ tầng bảo vệ quyền riêng tư được đề xuất, tạo ra chi phí tính toán khổng lồ khiến nó trở nên không thực tế cho các hoạt động học máy quy mô lớn. Trong khi các tác giả tuyên bố tác động hiệu suất có thể so sánh với mã hóa HTTPS, các nhà phát triển có kinh nghiệm vẫn hoài nghi về việc triển khai các hệ thống như vậy với kiến trúc GPU hiện tại.

Mã hóa đồng hình: Một phương pháp mã hóa cho phép tính toán trên dữ liệu được mã hóa mà không cần giải mã trước, nhưng với chi phí tính toán đáng kể.

Cuộc tranh luận về chất lượng so với số lượng dữ liệu

Một điểm tranh cãi chính tập trung vào việc liệu nhiều dữ liệu hơn có tự động dẫn đến các mô hình AI tốt hơn hay không. Các thành viên cộng đồng lập luận rằng đề xuất coi tất cả dữ liệu như có giá trị ngang nhau, trong khi thực tế hầu hết các bộ dữ liệu riêng tư sẽ mang lại ít lợi ích cho việc huấn luyện mô hình ngôn ngữ. Các số đọc cảm biến nhiệt độ, tệp trùng lặp và các mục cơ sở dữ liệu có cấu trúc có thể đại diện cho khối lượng lớn nhưng cung cấp giá trị huấn luyện tối thiểu.

Chúng ta không cần 'nhiều dữ liệu hơn', chúng ta cần 'nhiều dữ liệu hơn thuộc các loại cụ thể mà chúng ta đang huấn luyện'. Điều đó không dễ có được.

Cuộc thảo luận tiết lộ sự bất đồng cơ bản về quy luật mở rộng trong phát triển AI, với một số người lập luận rằng tiến bộ hiện tại đến từ các kỹ thuật cải tiến như lý luận và học tăng cường hơn là chỉ đơn giản thêm nhiều dữ liệu huấn luyện.

So sánh Dữ liệu Huấn luyện của các Mô hình AI Lớn

Công ty Mô hình Kích thước Dữ liệu Huấn luyện
Meta Llama-3 75 TB
OpenAI GPT-4 13 TB
Google Gemini-Ultra 15 TB
Amazon Titan 24 TB
DeepSeek DeepSeek LLM 2 TB

Mối lo ngại về quyền riêng tư và sự tin tưởng

Có lẽ lời chỉ trích mạnh mẽ nhất tập trung vào các tác động đến quyền riêng tư và độ tin cậy của doanh nghiệp. Các thành viên cộng đồng bày tỏ sự hoài nghi sâu sắc về việc cho phép các công ty AI truy cập vào hồ sơ y tế, giao dịch tài chính và dữ liệu riêng tư nhạy cảm khác, ngay cả với các biện pháp bảo vệ quyền riêng tư được đề xuất. Thành tích xử lý dữ liệu của các công ty công nghệ lớn đã khiến nhiều người không tin tưởng rằng bất kỳ giải pháp kỹ thuật nào có thể bảo vệ đầy đủ quyền riêng tư cá nhân.

Các nhà phê bình cũng đặt câu hỏi về các động cơ kinh tế, lưu ý rằng những công ty hiện đang tránh thanh toán cho dữ liệu huấn luyện hiện có không có khả năng bồi thường công bằng cho chủ sở hữu dữ liệu dưới bất kỳ hệ thống mới nào, bất kể các cơ chế thực thi kỹ thuật.

Yêu cầu cốt lõi của Kiểm soát dựa trên Phân bổ (ABC)

  1. Chủ sở hữu dữ liệu phải kiểm soát việc dữ liệu của họ hỗ trợ những dự đoán AI nào
  2. Chủ sở hữu dữ liệu phải kiểm soát cách dữ liệu của họ ảnh hưởng đến các kết luận của AI
  3. Hệ thống phải cho phép tạo ra doanh thu liên tục từ việc sử dụng dữ liệu
  4. Việc triển khai kỹ thuật yêu cầu phân vùng mô hình và cơ sở hạ tầng bảo mật

Sự tham gia của chính phủ làm dấy lên cảnh báo

Khuyến nghị của đề xuất về một chương trình do chính phủ dẫn đầu kiểu ARPANET để phát triển các hệ thống ABC đã thu hút sự xem xét đặc biệt. Các thành viên cộng đồng lo lắng về các tác động của việc các cơ quan chính phủ điều phối truy cập vào lượng lớn dữ liệu riêng tư, ngay cả với các biện pháp bảo vệ quyền riêng tư được tuyên bố. Việc so sánh với phát triển cơ sở hạ tầng internet khiến nhiều người cảm thấy không phù hợp do tính chất nhạy cảm của dữ liệu liên quan.

Cuộc tranh luận làm nổi bật căng thẳng rộng lớn hơn trong phát triển AI giữa mong muốn có các hệ thống có khả năng hơn và nhu cầu bảo vệ quyền riêng tư cá nhân và quyền dữ liệu. Trong khi cộng đồng kỹ thuật tiếp tục đổi mới trong các công nghệ bảo vệ quyền riêng tư, những thách thức thực tế và đạo đức của việc triển khai các hệ thống như vậy ở quy mô lớn vẫn là những trở ngại đáng gờm.

Tham khảo: Unlocking a Million Times More Data for AI