Việc Phá Hủy Sách Của Anthropic Gây Tranh Cãi Về Phương Pháp Huấn Luyện AI và Luật Bản Quyền

Nhóm Cộng đồng BigGo

Việc Phá Hủy Sách Của Anthropic Gây Tranh Cãi Về Phương Pháp Huấn Luyện AI và Luật Bản Quyền

Chiến thắng gần đây của Anthropic tại tòa án đã tiết lộ một cách tiếp cận bất thường trong việc huấn luyện AI đang chia rẽ cộng đồng công nghệ. Công ty đã phá hủy hàng triệu cuốn sách để tạo ra dữ liệu huấn luyện số cho Claude , đối thủ cạnh tranh với ChatGPT , với chi phí hàng triệu đô la Mỹ. Mặc dù hợp pháp về mặt pháp lý, phương pháp này đã gây ra cuộc tranh luận gay gắt về trách nhiệm môi trường và đạo đức trong phát triển AI.

Giải Pháp Pháp Lý Tạo Ra Hậu Quả Bất Ngờ

Việc phá hủy không phải là hành động phá hoại ngẫu nhiên mà là một chiến lược pháp lý được tính toán kỹ lưỡng. Luật bản quyền tạo ra một tình huống kỳ lạ khi việc mua sách vật lý mang lại nhiều tự do hơn so với việc cấp phép phiên bản số. Sách điện tử đi kèm với các điều khoản cấp phép hạn chế và bảo vệ DRM khiến việc xử lý hàng loạt trở nên rủi ro về mặt pháp lý. Sách vật lý, được bảo vệ bởi học thuyết bán lần đầu, có thể được sửa đổi hoặc phá hủy sau khi mua.

Thực tế pháp lý này buộc Anthropic phải áp dụng một cách tiếp cận đáng ngờ về mặt môi trường. Họ đã thuê Tom Turvey , cựu nhân viên của Google Books , để thực hiện một hoạt động quét quy mô lớn bao gồm việc cắt bìa sách, quét các trang và vứt bỏ phần giấy còn lại. Quá trình này được Thẩm phán William Alsup coi là sử dụng hợp lý, nhưng chỉ vì Anthropic đã mua sách một cách hợp pháp và giữ các tệp số nội bộ.

So sánh Khung pháp lý

Phương pháp	Tình trạng pháp lý	Thách thức
Quét sách giấy	Hợp pháp theo quyền bán lần đầu	Tốn kém, lãng phí môi trường
Cấp phép sách điện tử	Yêu cầu thỏa thuận với nhà xuất bản	Hạn chế DRM, tính khả dụng hạn chế
Nội dung vi phạm bản quyền	Vi phạm bản quyền	Trách nhiệm pháp lý, khả năng bị kiện

Cộng Đồng Chia Rẽ Về Tác Động Môi Trường

Phản ứng của cộng đồng công nghệ cho thấy mối quan ngại sâu sắc về các thực hành môi trường của các công ty AI. Nhiều người coi việc phá hủy sách là lãng phí, đặc biệt khi biến đổi khí hậu đòi hỏi việc sử dụng tài nguyên có trách nhiệm hơn. Các nhà phê bình cho rằng tồn tại các phương pháp thay thế - The Internet Archive đã tiên phong trong các kỹ thuật quét không phá hủy giúp bảo tồn sách vật lý trong khi tạo ra các bản sao số.

Tuy nhiên, những người khác bảo vệ thực hành này như một hình thức tái chế thực dụng. Hầu hết các cuốn sách bị phá hủy là những tập phổ biến được mua với số lượng lớn từ các nhà bán lẻ lớn, không phải là các bản thảo hiếm. Như một nhà quan sát đã lưu ý, ít người dưới 30 tuổi duy trì thư viện cá nhân nữa, cho thấy những cuốn sách này có thể đã trở thành chất thải.

Các Phương Pháp Thay Thế

Internet Archive: Quét không phá hủy giúp bảo tồn sách vật lý
Hợp tác với Harvard: OpenAI / Microsoft đang làm việc với các thư viện về sách thuộc phạm vi công cộng
Google Books: Đã thiết lập tiền례 pháp lý cho các dự án số hóa sách
The Pile: Meta đã sử dụng bộ dữ liệu này mà không phá hủy sách vật lý


Bị bao quanh bởi giấy vụn, một cảnh tượng hài hước phản ánh những chỉ trích về sự lãng phí trong các hoạt động đào tạo AI

Khoa Học Viễn Tưởng Trở Thành Hiện Thực

Tình huống này một cách kỳ lạ phản ánh tiểu thuyết năm 2006 của Vernor Vinge , Rainbow's End , mô tả một thế giới năm 2025 nơi các thư viện sử dụng máy móc khổng lồ để cắt nhỏ sách trong khi chụp ảnh các mảnh vỡ để tái tạo số. Nhiều thành viên cộng đồng đã chú ý đến sự tương đồng này, làm nổi bật cách phát triển AI hiện tại giống với tiểu thuyết dystopian.

Sự mỉa mai không bị bỏ qua bởi các nhà quan sát rằng trong khi Harvard cẩn thận bảo tồn các bản thảo 600 năm tuổi để huấn luyện AI, hàng triệu cuốn sách hiện đại đã bị giảm thành vật liệu tái chế để dạy Claude về văn học và viết lách.

Tác Động Rộng Lớn Đối Với Ngành Công Nghiệp AI

Trường hợp này tiết lộ sự khao khát tuyệt vọng của ngành công nghiệp AI đối với dữ liệu huấn luyện chất lượng cao và các rào cản pháp lý mà họ phải đối mặt. Các công ty ban đầu chuyển sang nội dung lậu để tránh quá trình pháp lý/thực hành/kinh doanh phức tạp - các cuộc đàm phán cấp phép phức tạp với các nhà xuất bản. Khi áp lực pháp lý gia tăng, họ tìm kiếm các giải pháp thay thế an toàn hơn, ngay cả khi tốn kém về mặt môi trường.

Tình huống này phơi bày một vấn đề cơ bản: luật bản quyền hiện tại khiến việc phá hủy vật lý trở nên hấp dẫn hơn về mặt pháp lý so với cấp phép số. Điều này tạo ra các động cơ sai lệch khi các công ty chọn các phương pháp lãng phí thay vì các phương pháp hiệu quả chỉ để bảo vệ pháp lý.

Cuộc tranh luận cuối cùng phản ánh những câu hỏi lớn hơn về các ưu tiên phát triển AI. Trong khi công nghệ hứa hẹn những lợi ích đáng kể, các phương pháp được sử dụng để tạo ra nó đặt ra những câu hỏi nghiêm túc về trách nhiệm môi trường và quản lý tài nguyên trong thời đại khủng hoảng khí hậu.

Tham khảo: Anthropic destroyed millions of print books to build its AI models

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌