Mô hình thị giác DINOv3 của Meta gây tranh cãi về giấy phép thương mại mới

Nhóm Cộng đồng BigGo
Mô hình thị giác DINOv3 của Meta gây tranh cãi về giấy phép thương mại mới

Meta đã phát hành DINOv3, một mô hình thị giác máy tính mạnh mẽ mới có thể hiểu và phân tích hình ảnh mà không cần dữ liệu huấn luyện được gán nhãn. Mặc dù những cải tiến kỹ thuật rất ấn tượng, việc phát hành này đã gây ra cuộc tranh luận sôi nổi trong cộng đồng AI về quyết định của Meta chuyển từ giấy phép mở Apache 2.0 sang giấy phép thương mại hạn chế.

Đột phá kỹ thuật với trọng tâm vào hình ảnh vệ tinh

DINOv3 đại diện cho một bước tiến đáng kể trong các mô hình thị giác tự giám sát, mở rộng lên hơn 1 tỷ tham số và huấn luyện trên 1,2 tỷ hình ảnh. Mô hình này xuất sắc trong việc tạo ra các biểu diễn hình ảnh chất lượng cao có thể được sử dụng cho nhiều tác vụ khác nhau như phát hiện đối tượng, phân đoạn và truy xuất hình ảnh mà không cần tinh chỉnh thêm.

Một trong những phát triển thú vị nhất là việc bao gồm các mô hình được huấn luyện đặc biệt trên hình ảnh vệ tinh. Các phiên bản trước của DINO có hiệu suất kém trên hình ảnh trên không và vệ tinh, nhưng DINOv3 bao gồm các mô hình chuyên biệt được huấn luyện trên bộ dữ liệu vệ tinh SAT-493M. Điều này giải quyết một khoảng trống lớn cho các nhà nghiên cứu và công ty làm việc với dữ liệu không gian địa lý.

Học tự giám sát: Một phương pháp học máy trong đó các mô hình học cách hiểu dữ liệu mà không cần các ví dụ được gán nhãn bởi con người, thay vào đó tìm ra các mẫu trong chính dữ liệu đó.

Thông số kỹ thuật của mô hình:

  • Tham số: Hơn 1 tỷ
  • Dữ liệu huấn luyện: 1,2 tỷ hình ảnh
  • Mô hình vệ tinh chuyên biệt: Được huấn luyện trên bộ dữ liệu SAT-493M
  • Kiến trúc: Các biến thể Vision Transformer ( ViT ) bao gồm ViT-L/16 và ViT-T/16

Thay đổi giấy phép gây lo ngại trong cộng đồng

Khía cạnh gây tranh cãi nhất trong việc phát hành DINOv3 là sự chuyển hướng của Meta khỏi giấy phép mở. Không giống như DINOv2 sử dụng giấy phép Apache 2.0 thoải mái, DINOv3 yêu cầu người dùng chia sẻ thông tin cá nhân bao gồm ngày sinh và trải qua quy trình phê duyệt để truy cập các mô hình.

Bạn phải chia sẻ thông tin liên lạc của mình, bao gồm ngày sinh, và sau đó được phê duyệt quyền truy cập để có được các mô hình, và vì đây là Meta nên tôi cho rằng họ thực sự đang xác thực nó với cơ sở dữ liệu All Humans của họ.

Thay đổi này đã làm thất vọng nhiều người trong cộng đồng AI mã nguồn mở, những người đã dựa vào khả năng tiếp cận của mô hình trước đó. Một số người dùng đang kêu gọi Meta xem xét lại quyết định cấp phép, chỉ ra các chiến dịch thành công trong quá khứ đã thuyết phục công ty thay đổi giấy phép hạn chế ban đầu của DINOv2 thành Apache 2.0.

So sánh Giấy phép:

  • DINOv2: Apache 2.0 (mã nguồn mở)
  • DINOv3: Giấy phép thương mại tùy chỉnh yêu cầu:
    • Nộp thông tin cá nhân (bao gồm ngày sinh)
    • Quy trình phê duyệt để truy cập mô hình
    • Xác thực thông qua cơ sở dữ liệu người dùng của Meta

Ứng dụng thực tế và hiệu suất

Bất chấp những lo ngại về giấy phép, những người dùng đầu tiên báo cáo rằng DINOv3 mang lại những cải tiến có ý nghĩa so với phiên bản tiền nhiệm. Mô hình này hoạt động như một sự thay thế trực tiếp cho DINOv2 trong nhiều ứng dụng, giúp các nhà phát triển tương đối dễ dàng nâng cấp các hệ thống hiện có.

Mô hình này xuất sắc như một mô hình nền tảng, có nghĩa là nó có thể ánh xạ bất kỳ hình ảnh nào vào một không gian đa chiều cao nơi các tác vụ thị giác phức tạp trở nên đơn giản hơn nhiều để giải quyết. Ví dụ, việc xác định xem một hình ảnh có chứa một đối tượng cụ thể hay không trở thành vấn đề tìm ra ranh giới toán học phù hợp trong không gian được biến đổi này, thay vì huấn luyện một mô hình hoàn toàn mới từ đầu.

Mô hình nền tảng: Một mô hình AI lớn được huấn luyện trên dữ liệu rộng có thể được điều chỉnh cho nhiều tác vụ cụ thể khác nhau mà không cần huấn luyện lại rộng rãi.

Nhìn về tương lai

Trong khi khả năng kỹ thuật của DINOv3 đại diện cho tiến bộ rõ ràng trong thị giác máy tính, cuộc tranh cãi về giấy phép làm nổi bật những căng thẳng ngày càng tăng xung quanh khả năng tiếp cận mô hình AI. Phản ứng của cộng đồng cho thấy rằng chiến lược cấp phép thương mại của Meta có thể đối mặt với sự phản kháng từ các nhà nghiên cứu và nhà phát triển, những người đã quen với các phương pháp tiếp cận mở hơn trong việc phân phối mô hình AI.

Hiện tại, người dùng phải cân nhắc giữa hiệu suất cải thiện của mô hình với các hạn chế và yêu cầu phê duyệt mới, đặc biệt là đối với các ứng dụng thương mại nơi các điều khoản cấp phép có thể tỏ ra cấm đoán.

Tham khảo: facebookresearch / DINOv3