Gitea Giới Thiệu Tính Năng Chống Bot Thu Thập Để Đối Phó Với Làn Sóng Tăng Vọt Lưu Lượng AI Bot

Nhóm Cộng đồng BigGo
Gitea Giới Thiệu Tính Năng Chống Bot Thu Thập Để Đối Phó Với Làn Sóng Tăng Vọt Lưu Lượng AI Bot

Nền tảng Git tự lưu trữ Gitea đã tung ra một tính năng mới để giúp các quản trị viên giải quyết vấn đề ngày càng gia tăng của các bot thu thập AI làm quprzeciążone máy chủ của họ. Giải pháp này ra đời khi các nhà phát triển trên toàn thế giới báo cáo về những đợt tăng vọt lưu lượng truy cập khổng lồ từ các crawler tự động khai thác kho lưu trữ của họ để lấy dữ liệu huấn luyện.

Một bộ sưu tập sống động các logo nền tảng phần mềm làm nổi bật sự đa dạng của các công cụ được sử dụng bởi các nhà phát triển đang đối mặt với thách thức từ các bot thu thập dữ liệu AI
Một bộ sưu tập sống động các logo nền tảng phần mềm làm nổi bật sự đa dạng của các công cụ được sử dụng bởi các nhà phát triển đang đối mặt với thách thức từ các bot thu thập dữ liệu AI

Bùng Nổ Lưu Lượng Từ AI Bot

Các quản trị viên máy chủ đã phải vật lộn với mức tiêu thụ băng thông chưa từng có từ các bot thu thập AI. Một người dùng báo cáo rằng VPS cá nhân của họ đã bị tấn công với 800GB lưu lượng hàng tháng từ những khách truy cập tự động này, chúng bị kẹt khi thu thập thông qua các trang lịch sử Git sâu. Các bot này dường như đang thu thập có hệ thống các kho lưu trữ mã nguồn, có thể cho mục đích huấn luyện mô hình AI.

Làn sóng tăng vọt lưu lượng bot này đã buộc nhiều nhà phát triển phải tìm kiếm giải pháp, với một số người phải chặn toàn bộ dải IP thuộc về các công ty AI lớn như OpenAI , Microsoft và Mistral . Tuy nhiên, những cách tiếp cận thủ công này thường đòi hỏi bảo trì liên tục và có thể vô tình chặn những người dùng hợp pháp.

Giao diện người dùng hiển thị các pull request và hoạt động repository phản ánh những khó khăn của quản trị viên máy chủ khi đối phó với lưu lượng truy cập tăng cao từ các bot AI
Giao diện người dùng hiển thị các pull request và hoạt động repository phản ánh những khó khăn của quản trị viên máy chủ khi đối phó với lưu lượng truy cập tăng cao từ các bot AI

Giải Pháp Cấu Hình Đơn Giản

Đội ngũ phát triển Gitea đã phản hồi với một giải pháp tinh tế: tùy chọn cấu hình REQUIRE_SIGNIN_VIEW = expensive. Tính năng này cho phép các quản trị viên yêu cầu xác thực người dùng chỉ cho những trang tốn nhiều tài nguyên, chẳng hạn như các chế độ xem lịch sử Git chi tiết, trong khi vẫn giữ hầu hết nội dung kho lưu trữ có thể truy cập công khai.

Cách tiếp cận này tạo ra sự cân bằng giữa tính mở và bảo vệ. Người dùng thông thường vẫn có thể duyệt kho lưu trữ, xem mã nguồn và truy cập hầu hết các tính năng mà không cần tạo tài khoản. Trong khi đó, các hoạt động tốn kém về mặt tính toán mà thu hút các bot crawler được bảo vệ sau một yêu cầu đăng nhập đơn giản.

Sau một chút điều tra, họ phát hiện chúng bị kẹt trong một số trang lịch sử git sâu... việc tạo ra các ngoại lệ cho các API endpoint có vẻ phức tạp. May mắn thay, các nhà phát triển Gitea gần đây đã triển khai REQUIRE_SIGNIN_VIEW = expensive như một giải pháp khắc phục.

Cấu hình chống thu thập dữ liệu:

  • Thiết lập: REQUIRE_SIGNIN_VIEW = expensive
  • Hiệu quả: Chỉ yêu cầu đăng nhập cho các trang tốn nhiều tài nguyên
  • Lợi ích: Chặn các bot thu thập dữ liệu trong khi vẫn duy trì quyền truy cập công khai vào hầu hết nội dung
  • Các phương pháp thay thế: Chặn IP của các ASN công ty AI ( OpenAI , Microsoft , Mistral )

Phản Hồi Của Cộng Đồng Và Các Giải Pháp Thay Thế

Cộng đồng Gitea đã ca ngợi cách tiếp cận có mục tiêu này trong việc quản lý bot. Người dùng báo cáo rằng việc triển khai cài đặt này đã ngay lập tức khôi phục máy chủ của họ về mức lưu lượng truy cập và sử dụng CPU bình thường, mà không làm gián đoạn quy trình làm việc thông thường hoặc cộng tác viên của họ.

Một số nhà phát triển đã khám phá các giải pháp thay thế, bao gồm việc di chuyển sang các công cụ lưu trữ Git nhẹ hơn như rgit kết hợp với các tiện ích sao lưu. Tuy nhiên, nhiều người đánh giá cao bộ tính năng toàn diện của Gitea , bao gồm CI/CD tích hợp thông qua Gitea Actions , các công cụ quản lý dự án và hỗ trợ sổ đăng ký gói cho hơn 20 loại gói khác nhau.

Các tính năng chính:

  • Lưu trữ mã nguồn với kho lưu trữ dựa trên Git
  • Hệ thống CI/CD tích hợp ( Gitea Actions ) tương thích với GitHub Actions
  • Quản lý dự án với các vấn đề, bảng kanban, cột mốc
  • Sổ đăng ký gói hỗ trợ hơn 20 loại gói ( NPM , Maven , Docker , PyPI , v.v.)
  • Hỗ trợ đa nền tảng ( Linux , Windows , macOS , FreeBSD , Kubernetes )
  • Tương thích cơ sở dữ liệu ( SQLite , MySQL , PostgreSQL , TiDB , MS SQL )
Các logo đa dạng của các nền tảng phần mềm phản ánh các cuộc thảo luận của cộng đồng Gitea về các lựa chọn thay thế và các tính năng toàn diện của nền tảng
Các logo đa dạng của các nền tảng phần mềm phản ánh các cuộc thảo luận của cộng đồng Gitea về các lựa chọn thay thế và các tính năng toàn diện của nền tảng

Ý Nghĩa Rộng Lớn Hơn

Sự phát triển này làm nổi bật căng thẳng ngày càng gia tăng giữa nhu cầu thu thập dữ liệu của các công ty AI và tài nguyên của các nhà phát triển cá nhân và tổ chức nhỏ. Khi việc huấn luyện AI trở nên đòi hỏi nhiều dữ liệu hơn, các nền tảng tự lưu trữ đang triển khai các giải pháp sáng tạo để duy trì dịch vụ của họ mà không hoàn toàn chặn truy cập tự động.

Sự thành công của cách tiếp cận của Gitea có thể ảnh hưởng đến các nền tảng tự lưu trữ khác để áp dụng các chiến lược xác thực có chọn lọc tương tự, cân bằng giữa truy cập công khai và bảo vệ tài nguyên trong thời đại thu thập web được điều khiển bởi AI.

Tham khảo: Private, Fast, Reliable DevOps Platform