Việc Huấn Luyện AI Trên Sách Có Bản Quyền Gây Ra Tranh Cãi Về Sử Dụng Hợp Lý Khi Anthropic Giành Được Chiến Thắng Một Phần

Nhóm Cộng đồng BigGo

Việc Huấn Luyện AI Trên Sách Có Bản Quyền Gây Ra Tranh Cãi Về Sử Dụng Hợp Lý Khi Anthropic Giành Được Chiến Thắng Một Phần

Một phán quyết gần đây có lợi cho Anthropic đã làm bùng phát lại các cuộc thảo luận về việc liệu các công ty AI có thể hợp pháp huấn luyện mô hình của họ trên nội dung có bản quyền hay không. Trong khi công ty này đã giành được chiến thắng một phần cho các hoạt động quét sách của họ, vụ kiện này tiết lộ những câu hỏi sâu sắc hơn về cách luật bản quyền áp dụng cho trí tuệ nhân tạo trong thời đại kỹ thuật số.

Cuộc chiến pháp lý bắt nguồn từ những ngày đầu của Anthropic khi công ty, được thành lập bởi các cựu nhà nghiên cứu OpenAI , đã tải xuống hàng triệu cuốn sách lậu để huấn luyện các mô hình AI của họ. Từ năm 2021 đến 2022, họ đã có được hơn 7 triệu bản sao trái phép từ các trang web lậu khét tiếng bao gồm Books3 , Library Genesis , và Pirate Library Mirror . Sau đó, công ty đã chuyển sang cách tiếp cận hợp pháp hơn, chi hàng triệu đô la Mỹ để mua và quét các cuốn sách vật lý.

Lịch trình thu thập sách của Anthropic:

Tháng 1-2/2021: Tải xuống Books3 (196.640 cuốn sách lậu)
Tháng 6/2021: Tải xuống hơn 5 triệu cuốn sách từ Library Genesis
Tháng 7/2022: Tải xuống hơn 2 triệu cuốn sách từ Pirate Library Mirror
Tháng 2/2024: Thuê cựu trưởng phòng hợp tác quét sách của Google
2024: Mua và quét hàng triệu cuốn sách vật lý với chi phí hàng triệu USD

Sự Tương Đồng Giữa Con Người và AI Bị Chỉ Trích

Phán quyết của Thẩm phán William Alsup đã rút ra những điểm tương đồng giữa việc học của con người và việc huấn luyện AI, lập luận rằng giống như con người đọc sách và dựa vào chúng trong việc viết lách, các mô hình AI cũng nên có quyền tương tự. Tuy nhiên, sự so sánh này đã gây ra cuộc tranh luận gay gắt trong cộng đồng công nghệ.

Các nhà phê bình cho rằng việc nhân cách hóa này đã bỏ lỡ một điểm quan trọng về quy mô và tốc độ. Vấn đề cơ bản không phải là liệu AI có thể học từ sách hay không, mà là liệu các luật sử dụng hợp lý hiện tại có thể xử lý quy mô khổng lồ mà các hệ thống này hoạt động hay không. Không giống như con người có thể đọc hàng trăm cuốn sách trong suốt cuộc đời, các mô hình AI có thể xử lý hàng triệu tác phẩm đồng thời và phản hồi vô số truy vấn ngay lập tức.

Nhưng việc yêu cầu bất kỳ ai trả tiền cụ thể cho việc sử dụng một cuốn sách mỗi khi họ đọc nó, mỗi khi họ nhớ lại nó từ trí nhớ, mỗi khi họ sau đó dựa vào nó khi viết những điều mới theo những cách mới sẽ là không thể tưởng tượng được.

Quy Mô Thay Đổi Mọi Thứ

Cuộc thảo luận của cộng đồng tiết lộ một mối quan tâm chính: tốc độ và quy mô về cơ bản đã thay đổi bối cảnh pháp lý. Nhiều người chỉ ra rằng sử dụng hợp lý được thiết kế cho các hoạt động ở quy mô con người, không phải xử lý dữ liệu ở quy mô công nghiệp. Khi các hệ thống AI có thể ngay lập tức nhớ lại và tổng hợp thông tin từ hàng triệu tác phẩm có bản quyền, nó có khả năng làm suy yếu các động lực kinh tế mà bản quyền được thiết kế để bảo vệ.

Một số người so sánh điều này với các lĩnh vực khác nơi quy mô biến đổi tính hợp pháp. Một trang web trải nghiệm lưu lượng truy cập tự nhiên từ mạng xã hội không vi phạm bất kỳ luật nào, nhưng cùng một khối lượng yêu cầu tự động sẽ tạo thành một cuộc tấn công DDoS . Sự khác biệt không chỉ nằm ở ý định, mà còn ở các khả năng công nghệ làm cho quy mô như vậy trở nên khả thi.

Tóm tắt Phán quyết Tòa án:

Thắng lợi Sử dụng Hợp lý: Các hoạt động quét sách được coi là có tính chuyển đổi và được bảo vệ
Trách nhiệm Vi phạm Bản quyền: Tài liệu tải xuống bất hợp pháp không được bảo vệ bởi quyền sử dụng hợp lý
Bước tiếp theo: Phiên tòa xét xử bồi thẩm đang chờ xử lý cho việc tải xuống sách vi phạm bản quyền
Tiền lệ Pháp lý: Phán quyết quan trọng đầu tiên về quyền sử dụng hợp lý dữ liệu huấn luyện AI

Kết Quả Pháp Lý Hỗn Hợp

Quyết định của tòa án có nhiều sắc thái, nhận thấy rằng các hoạt động quét sách sau này của Anthropic đủ điều kiện là sử dụng hợp lý vì chúng mang tính biến đổi và được giữ nội bộ. Tuy nhiên, việc tải xuống tài liệu lậu trước đó không nhận được sự bảo vệ tương tự và có khả năng sẽ phải đối mặt với phiên tòa xét xử bồi thẩm.

Quyết định chia đôi này làm nổi bật sự phức tạp của việc áp dụng các khái niệm bản quyền truyền thống cho việc phát triển AI. Trong khi các công ty có thể tuyên bố sử dụng hợp lý cho việc huấn luyện AI mang tính biến đổi, họ không thể đơn giản bỏ qua bản quyền bằng cách sử dụng tài liệu lậu làm dữ liệu nguồn.

Phán quyết này tạo ra một tiền lệ quan trọng, nhưng nó còn xa mới là lời cuối cùng. Với các vụ kiện tương tự đang chờ xử lý chống lại các công ty AI lớn khác, và các khu vực pháp lý khác nhau có khả năng đưa ra những kết luận khác nhau, bối cảnh pháp lý cho dữ liệu huấn luyện AI vẫn còn bất định. Ngành công nghệ sẽ theo dõi chặt chẽ khi các vụ kiện này diễn ra, biết rằng kết quả có thể định hình lại cách các hệ thống AI được phát triển và triển khai.

Tham khảo: Anthropic wins a major fair use victory for Al - but it's still in trouble for stealing books

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌