Các quản trị viên website đang ngày càng phải sử dụng biện pháp chặn toàn bộ quốc gia và mạng lưới nhà cung cấp đám mây khi các bot thu thập dữ liệu web được hỗ trợ bởi AI tiếp tục bỏ qua các biện pháp kiểm soát truy cập truyền thống. Ví dụ mới nhất liên quan đến một bot có tên Thinkbot đã sử dụng 74 địa chỉ IP duy nhất trên 41 khối mạng, tất cả đều thuộc sở hữu của gã khổng lồ công nghệ Trung Quốc Tencent , đồng thời hoàn toàn bỏ qua các file robots.txt mà các website sử dụng để thông báo các tùy chọn thu thập dữ liệu.
Các Khối Mạng Tencent Thường Bị Chặn Bởi Quản Trị Viên Website
Dải Mạng | Loại | Phạm Vi Bao Phủ |
---|---|---|
43.130.0.0/18 | Tencent Cloud | ~16,384 IPs |
43.135.0.0/18 | Tencent Cloud | ~16,384 IPs |
101.32.0.0/20 | Tencent Cloud | ~4,096 IPs |
119.28.64.0/19 | Tencent Cloud | ~8,192 IPs |
170.106.32.0/19 | Tencent Cloud | ~8,192 IPs |
Tổng Phạm Vi Bao Phủ: Hơn 476,590 địa chỉ IP duy nhất trên 41 khối mạng
Quy mô của vấn đề
Sự cố Thinkbot làm nổi bật xu hướng ngày càng gia tăng khi các bot thu thập dữ liệu tự động hoạt động trên các dải IP khổng lồ để tránh bị phát hiện và chặn. Thay vì cung cấp tài liệu phù hợp hoặc tôn trọng các giao thức web tiêu chuẩn, bot đặc biệt này chỉ đơn giản yêu cầu chủ sở hữu website chặn địa chỉ IP của nó nếu họ không thích lưu lượng truy cập đó. Cách tiếp cận này buộc các quản trị viên phải tham gia vào một trò chơi tốn kém giống như đập chuột chũi, vì việc chặn các địa chỉ riêng lẻ trở nên không hiệu quả khi các bot có thể chuyển đổi giữa hàng nghìn IP khác nhau.
Nhiều người vận hành website báo cáo rằng các giải pháp truyền thống như giới hạn tốc độ và chặn user agent đã trở nên phần lớn vô dụng. Cộng đồng đã quan sát thấy rằng những bot thu thập dữ liệu này thường kiên nhẫn chờ đợi qua việc điều chỉnh băng thông và thích ứng nhanh chóng với các biện pháp phòng thủ tiêu chuẩn. Một số quản trị viên đã tìm thấy thành công với các cách tiếp cận sáng tạo, chẳng hạn như yêu cầu các tham số URL cụ thể hoặc phục vụ nội dung khác nhau cho các bot bị nghi ngờ, nhưng những phương pháp này đòi hỏi bảo trì liên tục và chuyên môn kỹ thuật.
Chặn theo địa lý và cấp độ mạng
Cuộc thảo luận tiết lộ rằng nhiều chủ sở hữu website đã chuyển sang chặn toàn bộ quốc gia, đặc biệt là Trung Quốc và Nga, báo cáo giảm đáng kể lưu lượng truy cập độc hại. Một số quản trị viên báo cáo thấy giảm 90-95% các nỗ lực tấn công và hoạt động bot không mong muốn sau khi triển khai chặn cấp quốc gia. Tuy nhiên, cách tiếp cận này tạo ra các vấn đề về khả năng truy cập cho người dùng hợp pháp đi du lịch nước ngoài hoặc sử dụng dịch vụ VPN .
Mạng lưới nhà cung cấp đám mây đưa ra một thách thức khác, khi các bot thu thập dữ liệu ngày càng sử dụng các dịch vụ từ Amazon Web Services , Google Cloud , Microsoft Azure và các nhà cung cấp lớn khác. Một số chủ sở hữu website đã bắt đầu chặn toàn bộ dải IP của nhà cung cấp đám mây, mặc dù điều này có thể ảnh hưởng đến người dùng doanh nghiệp hợp pháp truy cập website thông qua VPN doanh nghiệp được lưu trữ trên các nền tảng này.
Chúng tôi đã giải quyết rất nhiều vấn đề bằng cách chặn tất cả ASN của Trung Quốc. Thừa nhận rằng, đây không phải là giải pháp thân thiện nhất, nhưng có quá nhiều vấn đề xuất phát từ các client Trung Quốc đến mức việc cấm toàn bộ quốc gia này dễ dàng hơn.
Các Chiến Lược Chặn Địa Lý Phổ Biến
Phương pháp | Hiệu quả | Nhược điểm |
---|---|---|
Chặn theo quốc gia ( China / Russia ) | Giảm 90-95% lưu lượng độc hại | Chặn người dùng hợp pháp và du khách |
Chặn ASN nhà cung cấp đám mây | Hiệu quả cao chống lại các trang trại bot | Ảnh hưởng đến người dùng doanh nghiệp sử dụng VPN công ty |
Phát hiện proxy dân cư | Hiệu quả vừa phải | Triển khai phức tạp, dương tính giả |
Chỉ cho phép truy cập danh sách trắng | Bảo mật cao nhất | Hạn chế nghiêm trọng khả năng tiếp cận |
Các biện pháp đối phó kỹ thuật và hạn chế của chúng
Các quản trị viên website đang khám phá nhiều giải pháp kỹ thuật khác ngoài việc chặn IP đơn giản. Một số sử dụng các dịch vụ như Cloudflare để lọc địa lý, trong khi những người khác triển khai các quy tắc tường lửa tùy chỉnh tự động thêm các mạng có vấn đề vào danh sách chặn. Các cách tiếp cận tinh vi hơn bao gồm phân tích các mẫu lưu lượng truy cập để xác định mạng trung tâm dữ liệu so với kết nối dân cư, mặc dù điều này trở nên phức tạp với sự gia tăng của các dịch vụ proxy dân cư.
Cuộc thảo luận cộng đồng cũng tiết lộ các chiến thuật phòng thủ thú vị, chẳng hạn như phục vụ dữ liệu giả hoặc bị hỏng cho các bot bị nghi ngờ, triển khai zip bomb tiêu thụ tài nguyên của bot thu thập dữ liệu, hoặc sử dụng các kỹ thuật honeypot để xác định và chặn các tác nhân độc hại. Tuy nhiên, những phương pháp này đòi hỏi chuyên môn kỹ thuật đáng kể và bảo trì liên tục.
Tác động đến cơ sở hạ tầng Internet rộng lớn hơn
Cuộc xung đột leo thang này giữa chủ sở hữu website và các bot thu thập dữ liệu tự động đang thay đổi cơ bản cách thức hoạt động của internet. Việc áp dụng rộng rãi chặn theo địa lý và cấp độ mạng đang tạo ra một web phân mảnh hơn, nơi quyền truy cập phụ thuộc rất nhiều vào vị trí và nhà cung cấp mạng của bạn. Một số quản trị viên lo ngại rằng xu hướng chặn phòng thủ này cuối cùng sẽ yêu cầu các hệ thống dựa trên whitelist thay vì mô hình internet mở theo mặc định hiện tại.
Tình huống này cũng đặt ra câu hỏi về tính bền vững của cơ sở hạ tầng web hiện tại khi đối mặt với lưu lượng truy cập tự động ngày càng tinh vi. Khi các công ty AI tiếp tục thu thập nội dung web để đào tạo dữ liệu, và khi các biện pháp phòng thủ trở nên tích cực hơn, internet có thể đang phát triển hướng tới một hệ thống hạn chế và chia ngăn hơn, ưu tiên bảo mật hơn là truy cập toàn cầu.
Tham khảo: The Boston Diaries