Vấn đề bot trên internet đã phát triển vượt xa những công cụ thu thập dữ liệu đơn giản từ trung tâm dữ liệu. Một thế hệ bot mới hung hãn hơn hiện đang ẩn náu sau các địa chỉ IP dân cư, biến các thiết bị của người dùng không nghi ngờ thành những người tham gia không tự nguyện vào các hoạt động thu thập dữ liệu quy mô lớn. Mạng lưới proxy tinh vi này đại diện cho một trong những mối đe dọa khó giải quyết nhất đối với các nhà điều hành website hiện nay.
Cách Điện Thoại Của Bạn Trở Thành Một Phần Của Đội Quân Bot
Tiết lộ đáng báo động nhất từ các cuộc thảo luận gần đây liên quan đến cách các hoạt động thu thập dữ liệu này có được địa chỉ IP dân cư. Một số dịch vụ, bao gồm Bright Data, IPRoyal và Oxylabs, cung cấp proxy dân cư định tuyến lưu lượng truy cập thông qua các thiết bị tiêu dùng thực tế thay vì trung tâm dữ liệu. Các công ty này cung cấp SDK cho các nhà phát triển ứng dụng di động, những người tích hợp chúng vào các ứng dụng miễn phí.
Họ cung cấp một SDK cho các nhà phát triển di động. Ứng dụng yêu cầu người dùng xác nhận việc sử dụng thiết bị của họ để chạy một proxy trong ứng dụng.
Khi người dùng cài đặt các ứng dụng này, họ thường được trình bày với các điều khoản dịch vụ khó hiểu cho phép kết nối internet của họ được sử dụng như một nút thoát cho lưu lượng proxy. Hệ quả rất đáng lo ngại - điện thoại của bạn có thể đang định tuyến các yêu cầu cho bất cứ thứ gì, từ việc thu thập dữ liệu đơn giản đến các hoạt động có khả năng bất hợp pháp, tất cả mà không có sự hiểu biết đầy đủ của bạn.
Các Dịch Vụ Proxy Dân Cư Chính Được Đề Cập:
- Bright Data (trước đây là Luminati)
- IPRoyal
- Oxylabs
- Các dịch vụ khác cung cấp "thu nhập thụ động" khi chia sẻ kết nối internet của bạn
Thách Thức Kỹ Thuật Cho Những Người Bảo Vệ Website
Cách tiếp cận proxy dân cư này tạo ra những thách thức chưa từng có đối với bảo mật website. Việc chặn IP truyền thống trở nên kém hiệu quả vì các proxy này sử dụng địa chỉ IP Carrier-Grade NAT (CGNAT) được chia sẻ bởi hàng nghìn người dùng hợp pháp. Chặn một IP lạm dụng có thể vô tình chặn toàn bộ một thành phố hoặc khu vực có khách truy cập hợp pháp.
Quy mô thật đáng kinh ngạc. Một nhà điều hành website báo cáo đã chặn gần 2 triệu yêu cầu độc hại trên vài trăm blog chỉ trong 24 giờ. Các bot luân phiên qua hàng nghìn địa chỉ IP, khiến việc phát hiện dựa trên mẫu ngày càng khó khăn. Một số dịch vụ thậm chí còn cung cấp các công cụ như NobleTLS hoặc JA3Cloak để vượt qua xác thực JA3, một phương pháp phổ biến để xác định các máy khách độc hại.
Các Chiến Lược Phòng Thủ Sáng Tạo Xuất Hiện
Các nhà điều hành website đang chống trả bằng các kỹ thuật sáng tạo. Một số đã triển khai các chiến lược honeypot, đặt các điểm cuối giả trong tệp robots.txt của họ mà chỉ các bot mới có thể truy cập. Khi một máy khách truy cập vào các điểm cuối này, chúng sẽ tự động bị chặn hoặc được cung cấp các biện pháp đối phó. Những người khác đang thử nghiệm xác thực proof-of-work, khiến việc thu thập dữ liệu trở nên tốn kém về mặt tính toán đối với bot.
Cuộc chạy đua vũ trang này đã buộc nhiều nhà điều hành phải triển khai các chiến lược phòng thủ nhiều lớp. Chúng bao gồm giới hạn tốc độ tích cực, quy tắc tường lửa ứng dụng web, thuật toán phát hiện bot tùy chỉnh và cung cấp dữ liệu rác vô tận để khiến các công cụ thu thập dữ liệu bận rộn. Tuy nhiên, mỗi giải pháp đều làm tăng thêm sự phức tạp và các điểm tiềm ẩn gây lỗi cho người dùng hợp pháp.
Các Kỹ Thuật Giảm Thiểu Bot Phổ Biến:
- Quy tắc Web Application Firewall (WAF)
- Giới hạn tốc độ theo IP và hành vi
- Phát hiện dấu vân tay JA3
- Các endpoint honeypot trong robots.txt
- Xác thực proof-of-work
- Phân phối dữ liệu rác hoặc zip bomb cho các client lạm dụng
Hệ Quả Rộng Lớn Hơn Đối Với Sức Khỏe Internet
Hệ sinh thái proxy này đại diện cho một sự thay đổi cơ bản trong cách thức hoạt động của việc thu thập dữ liệu. Những gì bắt đầu như các tập lệnh tự động đơn giản đã phát triển thành một cơ sở hạ tầng tinh vi tận dụng các thiết bị của người tiêu dùng để thu lợi nhuận thương mại. Thực tiễn này đặt ra những câu hỏi nghiêm túc về sự đồng thuận, tính minh bạch và sức khỏe lâu dài của web mở.
Như một bình luận viên đã nhận xét, Internet công cộng chủ yếu là bot, và nhiều kẻ trong số chúng là những cư dân mạng xấu. Môi trường web ngày càng thù địch khiến các nhà điều hành độc lập khó khăn hơn bao giờ hết trong việc duy trì sự hiện diện của họ. Tuy nhiên, nhiều người vẫn tiếp tục cuộc chiến, nhận ra rằng các không gian trực tuyến chân chính của con người là đáng để bảo vệ.
Cuộc chiến giữa các nhà điều hành website và các công cụ thu thập dữ liệu hung hãn không có dấu hiệu chậm lại. Khi dữ liệu ngày càng trở nên có giá trị cho việc đào tạo AI và các mục đích thương mại khác, động lực cho việc thu thập dữ liệu quy mô lớn sẽ chỉ tăng lên. Tương lai của internet có thể phụ thuộc vào việc tìm ra sự cân bằng giữa quyền truy cập mở và hoạt động bền vững.
Tham khảo: Aggressive bots ruined my weekend
