Anthropic Đã Tiêu Hủy Hàng Triệu Cuốn Sách Vật Lý Để Huấn Luyện AI Claude, Tài Liệu Tòa Án Tiết Lộ

Nhóm biên tập BigGo
Anthropic Đã Tiêu Hủy Hàng Triệu Cuốn Sách Vật Lý Để Huấn Luyện AI Claude, Tài Liệu Tòa Án Tiết Lộ

Các hồ sơ tòa án gần đây đã phơi bày một thực hành gây tranh cãi của công ty AI Anthropic, tiết lộ rằng công ty này đã tiêu hủy vật lý hàng triệu cuốn sách trong quá trình huấn luyện mô hình ngôn ngữ Claude của mình. Việc tiết lộ này đã gây ra cuộc tranh luận về các phương pháp mà các công ty sử dụng để thu thập dữ liệu huấn luyện cho các hệ thống trí tuệ nhân tạo và ranh giới pháp lý xung quanh bản quyền và sử dụng hợp lý.

Sự chuyển đổi từ sách vật lý sang thông tin kỹ thuật số được minh họa qua hình ảnh một cuốn sách màu đỏ phát ra mã nhị phân, phản ánh các phương pháp phá hủy của Anthropic để huấn luyện AI
Sự chuyển đổi từ sách vật lý sang thông tin kỹ thuật số được minh họa qua hình ảnh một cuốn sách màu đỏ phát ra mã nhị phân, phản ánh các phương pháp phá hủy của Anthropic để huấn luyện AI

Quy Trình Quét Phá Hủy Tốn Hàng Triệu Đô La

Tài liệu tòa án cho thấy Anthropic đã chi hàng triệu đô la Mỹ để mua sách vật lý, sau đó được đưa qua các quy trình quét phá hủy. Công ty đã có hệ thống tháo gỡ bìa sách, quét các trang thành tệp PDF có thể đọc được bằng máy, và sau đó loại bỏ các bản gốc giấy. Cách tiếp cận này được chọn để đẩy nhanh quá trình số hóa cần thiết để cung cấp cho các thuật toán huấn luyện của Claude dữ liệu văn bản chất lượng cao.

Quy mô của hoạt động này rất lớn, với hàng triệu tập được xử lý thông qua phương pháp phá hủy này. Anthropic chủ yếu nhắm vào các cuốn sách cũ từ các kênh bán lẻ, tránh nhu cầu đàm phán cấp phép phức tạp với các nhà xuất bản. Cách tiếp cận của công ty chịu ảnh hưởng từ học thuyết bán hàng đầu tiên của Mỹ, cho phép người mua sách vật lý xử lý chúng theo ý muốn sau khi mua.

Quy trình quét phá hủy:

  • Hàng triệu cuốn sách vật lý được mua và tiêu hủy
  • Quy trình bao gồm tháo gỡ bìa sách, quét các trang, loại bỏ bản gốc
  • Chi phí: Vài triệu USD
  • Mục tiêu: Chủ yếu là sách cũ từ các kênh bán lẻ

Tuyển Dụng Chiến Lược và Tiền Lệ Pháp Lý

Vào tháng 2 năm 2024, Anthropic đã thuê Tom Turvey, người trước đây quản lý quan hệ đối tác cho Google Books, đặc biệt giao nhiệm vụ cho ông thu thập sách từ khắp nơi trên thế giới. Việc bổ nhiệm chiến lược này cho thấy công ty nhằm mục đích sao chép mô hình số hóa sách thành công về mặt pháp lý của Google, mà các tòa án trước đây đã phán quyết cấu thành sử dụng hợp lý.

Quyết định tuyển dụng đã chứng minh là có tầm nhìn xa khi Thẩm phán William Alsup phán quyết rằng phương pháp quét của Anthropic cấu thành sử dụng hợp lý. Lý luận của thẩm phán tập trung vào một số yếu tố: các cuốn sách được mua hợp pháp, bị tiêu hủy ngay lập tức sau khi quét, và các tệp số chỉ được giữ lại để sử dụng nội bộ mà không phân phối ra bên ngoài. Ông mô tả quá trình này như một sự chuyển đổi số tiết kiệm không gian với đặc điểm biến đổi đủ để đủ điều kiện bảo vệ sử dụng hợp lý.

Chiến Thắng Pháp Lý Hỗn Hợp Với Những Thách Thức Đang Diễn Ra

Trong khi Anthropic đạt được một chiến thắng pháp lý một phần, quyết định của tòa án không hoàn toàn có lợi. Thẩm phán đã phán quyết chống lại công ty vì việc dựa vào các thư viện sách điện tử lậu trước đây trong quá trình phát triển Claude. CEO Dario Amodei ban đầu đã ủng hộ việc sử dụng nội dung lậu để bỏ qua các quy trình cấp phép dài, một quyết định hiện đang làm suy yếu vị thế pháp lý của công ty.

Phán quyết hỗn hợp này có nghĩa là Anthropic vẫn phải đối mặt với phiên tòa bản quyền được lên lịch vào tháng 12 năm 2024, nơi công ty có thể phải đối mặt với hình phạt lên tới 150.000 đô la Mỹ cho mỗi tác phẩm lậu được sử dụng trong huấn luyện. Vụ án làm nổi bật sự căng thẳng giữa nhu cầu của các công ty AI về lượng lớn dữ liệu huấn luyện và các biện pháp bảo vệ bản quyền hiện có.

Các Kết Quả Pháp Lý Chính:

  • Thắng kiện một phần cho Anthropic về việc quét sách theo học thuyết sử dụng hợp lý
  • Phán quyết bất lợi cho Anthropic vì sử dụng thư viện sách điện tử lậu
  • Phiên tòa bản quyền sắp tới vào tháng 12/2024 với mức phạt tiềm năng lên đến 150,000 USD cho mỗi tác phẩm lậu

Tác Động Toàn Ngành Đối Với Phát Triển AI

Việc tiết lộ về tiêu hủy sách xuất hiện giữa lúc có sự giám sát rộng rãi hơn về tác động môi trường và thực hành bản quyền của AI tạo sinh. Các cách tiếp cận thay thế tồn tại, chẳng hạn như công nghệ quét không phá hủy được phát triển bởi Internet Archive, bảo tồn các cuốn sách gốc trong khi tạo ra các bản sao số. OpenAI và Microsoft cũng đã công bố quan hệ đối tác với Thư viện Đại học Harvard để sử dụng gần một triệu cuốn sách thuộc phạm vi công cộng cho huấn luyện AI trong khi duy trì việc bảo quản thích hợp các tập vật lý.

Vụ án thiết lập một tiền lệ có thể quan trọng cho ngành AI, vì nó có thể cho phép các công ty huấn luyện mô hình trên tài liệu có bản quyền mà không cần thông báo cho nhà xuất bản, với điều kiện họ tuân theo phương pháp mua và tiêu hủy của Anthropic. Tuy nhiên, các cuộc chiến bản quyền đang diễn ra trên toàn ngành tiếp tục đặt ra những rủi ro đáng kể, với các vụ án liên quan đến Getty Images và vụ kiện của Disney chống lại Midjourney có thể định hình lại bối cảnh pháp lý cho phát triển AI tạo sinh.