Thẩm phán Liên bang Phán quyết Việc Huấn luyện AI của Anthropic trên Sách có Bản quyền là Sử dụng Hợp lý, Nhưng Công ty Vẫn Phải Hầu tòa về Phương thức Cướp bản quyền

Nhóm biên tập BigGo
Thẩm phán Liên bang Phán quyết Việc Huấn luyện AI của Anthropic trên Sách có Bản quyền là Sử dụng Hợp lý, Nhưng Công ty Vẫn Phải Hầu tòa về Phương thức Cướp bản quyền

Một phán quyết pháp lý mang tính bước ngoặt đã đưa ra kết quả trái chiều cho công ty AI Anthropic , thiết lập những tiền례 quan trọng về cách các công ty trí tuệ nhân tạo có thể thu thập dữ liệu huấn luyện một cách hợp pháp đồng thời làm nổi bật những căng thẳng đang diễn ra giữa bảo vệ bản quyền và phát triển AI.

Tòa án Thiết lập Tiền lệ Sử dụng Hợp lý cho Huấn luyện AI

Thẩm phán tòa án liên bang San Francisco William Alsup đã phán quyết vào thứ Hai rằng việc Anthropic sử dụng tài liệu có bản quyền để huấn luyện mô hình ngôn ngữ lớn Claude của mình cấu thành việc sử dụng hợp lý theo luật bản quyền Mỹ. Thẩm phán mô tả các đầu ra của mô hình AI được huấn luyện trên tài liệu có bản quyền là có tính chất biến đổi điển hình, so sánh giữa hệ thống AI và các nhà văn con người học hỏi từ các tác phẩm hiện có. Thẩm phán Alsup viết rằng các mô hình AI của Anthropic được huấn luyện trên các tác phẩm không phải để vượt lên và sao chép hoặc thay thế chúng — mà để rẽ một góc cứng và tạo ra thứ gì đó khác biệt.

Các Tiền Lệ Pháp Lý Quan Trọng

  • Phán quyết sử dụng hợp lý: Việc AI huấn luyện trên tài liệu có bản quyền được coi là "có tính chất chuyển đổi điển hình"
  • Phân biệt hành vi vi phạm bản quyền: Yêu cầu phải có sự thu thập hợp pháp, ngay cả khi sử dụng cho mục đích hợp lý
  • Quét tài liệu có tính phá hủy: Được chấp nhận về mặt pháp lý khi sách được mua và tiêu hủy ngay lập tức
Ứng dụng " Claude " của Anthropic , đóng vai trò trung tâm trong phán quyết sử dụng hợp lý gần đây liên quan đến dữ liệu huấn luyện AI
Ứng dụng " Claude " của Anthropic , đóng vai trò trung tâm trong phán quyết sử dụng hợp lý gần đây liên quan đến dữ liệu huấn luyện AI

Cáo buộc Cướp bản quyền Vẫn Cần Giải quyết Pháp lý

Bất chấp chiến thắng về sử dụng hợp lý, Anthropic phải trở lại tòa án vào tháng 12 để giải quyết các cáo buộc vi phạm bản quyền thông qua cướp bản quyền. Vụ kiện do các tác giả Andrea Bartz , Charles Graeber và Kirk Wallace Johnson đệ trình vào tháng 8 năm 2024, cáo buộc rằng Anthropic đã tải xuống các phiên bản cướp bản quyền đã biết của các tác phẩm của Nguyên đơn. Tài liệu tòa án tiết lộ những lo ngại nội bộ từ nhân viên Anthropic về việc sử dụng sách cướp bản quyền cho mục đích huấn luyện. Thẩm phán Alsup đã rõ ràng về điểm này, tuyên bố Anthropic không có quyền sử dụng các bản sao cướp bản quyền cho thư viện trung tâm của mình.

Dòng thời gian pháp lý

  • Tháng 8/2024: Các tác giả đã đệ đơn kiện chống lại Anthropic
  • Tháng 2/2024: Anthropic đã thuê Tom Turvey từ Google Books
  • Tháng 12/2025: Ngày xét xử được lên lịch cho các cáo buộc vi phạm bản quyền

Công ty Chuyển sang Chiến lược Thu thập Sách Đắt đỏ

Tài liệu pháp lý tiết lộ rằng Anthropic đã chi hàng triệu đô la Mỹ để mua và số hóa sách vật lý cho việc huấn luyện AI sau khi chuyển khỏi các nguồn cướp bản quyền. Vào tháng 2 năm 2024, công ty đã thuê Tom Turvey , người trước đây quản lý quan hệ đối tác cho Google Books , với sứ mệnh thu thập tất cả sách trên thế giới. Công ty đã áp dụng phương pháp quét phá hủy, mua sách số lượng lớn, tháo bìa, quét các trang thành tệp PDF có thể đọc được bằng máy, và sau đó loại bỏ hoàn toàn các bản sao vật lý.

Tác động tài chính

  • Anthropic đã chi hàng triệu USD cho việc mua lại và số hóa sách
  • Công ty đã chuyển từ các nguồn lậu miễn phí sang các giải pháp hợp pháp đắt đỏ
  • Quy trình quét phá hủy bao gồm mua sắm số lượng lớn, quét và tiêu hủy

Chiến thuật Pháp lý Chiến lược Bắt chước Cách tiếp cận của Google

Việc Anthropic thuê Turvey có vẻ là một nỗ lực chiến lược để sao chép sự bảo vệ pháp lý thành công của Google đối với dự án số hóa sách của mình, mà các tòa án trước đây đã phán quyết là sử dụng hợp lý. Thẩm phán xác định rằng phương pháp quét của Anthropic cấu thành sử dụng hợp lý vì các cuốn sách được mua hợp pháp, bị phá hủy ngay lập tức sau khi quét, và các tệp số chỉ được sử dụng nội bộ mà không phân phối ra bên ngoài. Việc số hóa tiết kiệm không gian này được coi là có các đặc tính biến đổi cần thiết để được bảo vệ sử dụng hợp lý.

Các Phương pháp Thay thế Tồn tại Nhưng Vẫn Chưa được Sử dụng Đầy đủ

Vụ án làm nổi bật rằng các công nghệ quét không phá hủy có sẵn, như được chứng minh bởi các tổ chức như Internet Archive . Đầu tháng này, OpenAI và Microsoft đã công bố hợp tác với Harvard University Library để huấn luyện AI sử dụng gần một triệu cuốn sách thuộc phạm vi công cộng trong khi bảo tồn các tập gốc. Tuy nhiên, hầu hết các công ty AI tiếp tục ưu tiên tốc độ và hiệu quả chi phí hơn việc bảo tồn khi thu thập dữ liệu huấn luyện.

Tác động Rộng lớn hơn đối với Ngành công nghiệp AI

Phán quyết này xuất hiện khi Dự luật Data (Use and Access) của Anh gần đây đã được thông qua mà không có các sửa đổi yêu cầu các công ty AI phải khai báo việc sử dụng tài liệu có bản quyền hoặc cung cấp các điều khoản từ chối cho chủ sở hữu bản quyền. Tiền lệ pháp lý được thiết lập trong vụ án này có thể ảnh hưởng đến cách các công ty AI tiếp cận việc thu thập dữ liệu, gợi ý rằng việc mua và số hóa các tác phẩm có bản quyền có thể cung cấp một con đường an toàn hơn về mặt pháp lý so với việc dựa vào nội dung trực tuyến có sẵn miễn phí nhưng có khả năng bị cướp bản quyền.