Mạng lưới Proxy dân cư tăng vọt khi việc thu thập dữ liệu LLM thúc đẩy tăng trưởng mạnh lưu lượng bot

Nhóm Cộng đồng BigGo
Mạng lưới Proxy dân cư tăng vọt khi việc thu thập dữ liệu LLM thúc đẩy tăng trưởng mạnh lưu lượng bot

Cộng đồng an ninh mạng đang sôi sục về một xu hướng đáng lo ngại đang định hình lại các mô hình lưu lượng internet. Điều bắt đầu từ một cuộc thảo luận trên Reddit về khoản thanh toán đáng ngờ 250 đô la Mỹ hàng tháng để lưu trữ thiết bị mạng đã tiết lộ một vấn đề lớn hơn nhiều: sự tăng trưởng bùng nổ của các mạng lưới proxy dân cư được thúc đẩy bởi sự thèm khát dữ liệu không thể thỏa mãn của các công ty trí tuệ nhân tạo.

Trang web nêu bật các cuộc thảo luận xung quanh mạng lưới proxy dân cư và tác động của chúng đối với an ninh mạng, tạo bối cảnh cho các vấn đề được nêu ra trong bài viết
Trang web nêu bật các cuộc thảo luận xung quanh mạng lưới proxy dân cư và tác động của chúng đối với an ninh mạng, tạo bối cảnh cho các vấn đề được nêu ra trong bài viết

Kết nối LLM đằng sau sự bùng nổ mạng lưới Proxy

Sự phát triển của các mô hình ngôn ngữ lớn đã tạo ra nhu cầu chưa từng có đối với các dịch vụ proxy dân cư. Các chuyên gia bảo mật đang báo cáo sự gia tăng đáng kể trong lưu lượng bot mà không thể tưởng tượng được chỉ hai năm trước. Một trang web thường thấy khoảng 10.000 địa chỉ IP duy nhất mỗi ngày đột nhiên tăng lên hơn 2 triệu trước khi có thể triển khai các biện pháp phòng thủ phù hợp. Điều này đại diện cho mức tăng 200 lần về khối lượng lưu lượng, tạo ra những gì tương đương với các hoạt động thu thập dữ liệu ở mức độ tấn công từ chối dịch vụ phân tán.

Mối liên hệ giữa phát triển AI và proxy dân cư là rõ ràng. Các công ty đào tạo mô hình ngôn ngữ cần lượng lớn dữ liệu web, và nhiều trang web đã triển khai các biện pháp chặn chống lại lưu lượng bot rõ ràng từ các trung tâm dữ liệu. Proxy dân cư cung cấp cách thức vượt qua những biện pháp phòng thủ này bằng cách định tuyến các yêu cầu thông qua các kết nối internet gia đình thực tế, làm cho lưu lượng truy cập có vẻ như đến từ người dùng thông thường.

So sánh Lưu lượng Truy cập Residential Proxy

  • Lưu lượng truy cập hàng ngày của website thông thường: ~10.000 IP duy nhất
  • Lưu lượng truy cập sau khi LLM bùng nổ: hơn 2 triệu IP duy nhất
  • Hệ số tăng trưởng lưu lượng: tăng 200 lần
  • IP của Comcast quan sát được (30 ngày): hơn 120.000
  • IP của AT&T quan sát được (30 ngày): hơn 100.000

Quy mô của các hoạt động Proxy hiện đại

Những con số đằng sau các mạng lưới proxy dân cư ngày nay thật đáng kinh ngạc. Dữ liệu theo dõi gần đây cho thấy hơn 120.000 địa chỉ IP từ Comcast và gần 100.000 từ AT&T được sử dụng làm điểm cuối proxy chỉ trong vòng 30 ngày. Đây không phải là những sự cố biệt lập mà là một phần của phương pháp có hệ thống để thu thập các kết nối internet dân cư cho mục đích thương mại.

Nhiều kết nối này đến từ những người dùng không nghi ngờ gì đã cài đặt các ứng dụng VPN miễn phí hoặc ứng dụng di động bí mật biến thiết bị của họ thành các nút thoát proxy. Thực tế này đã trở nên phổ biến đến mức các chuyên gia bảo mật ước tính khả năng có một nút proxy của bạn tăng 1% với mỗi lần cài đặt ứng dụng miễn phí.

Ứng dụng di động như ngựa thành Troy

Hệ sinh thái ứng dụng di động đã trở thành một vectơ chính để tuyển dụng proxy dân cư. Các công ty như Bright Data được đổi tên thương hiệu (trước đây là Hola/Luminati) hiện trả tiền cho các nhà phát triển di động để nhúng các bộ công cụ phát triển phần mềm proxy trực tiếp vào ứng dụng của họ. Thực tế này cho phép các công ty proxy truy cập hàng triệu kết nối internet dân cư mà không có kiến thức rõ ràng của người dùng hoặc hiểu biết về những gì họ đang đồng ý.

Hola VPN là một trường hợp thú vị của máy in tiền, lưu trữ một VPN đơn giản và trình bày nó như miễn phí, cung cấp cho người dùng các IP trung tâm dữ liệu dễ phát hiện. Trong khi đó bạn có được những IP dân cư quý giá của họ và in hàng triệu mỗi tháng.

Mô hình kinh doanh này tinh vi và lừa dối: cung cấp cho người dùng dịch vụ VPN miễn phí cung cấp các địa chỉ IP trung tâm dữ liệu dễ phát hiện cho việc sử dụng của chính họ, đồng thời thu thập các địa chỉ IP dân cư có giá trị của họ để bán cho khách hàng trả tiền với mức giá cao.

Thách thức phát hiện và thiệt hại tài sản thế chấp

Các phương pháp chặn dựa trên IP truyền thống đã trở nên phần lớn không hiệu quả chống lại các mạng lưới proxy dân cư hiện đại. Khi các nhóm bảo mật cố gắng chặn các địa chỉ IP đáng ngờ, họ thường kết thúc việc chặn những người dùng hợp pháp tình cờ chia sẻ cùng cơ sở hạ tầng nhà cung cấp dịch vụ internet. Điều này đặc biệt có vấn đề với các ISP sử dụng phân bổ IP động, nơi địa chỉ IP của khách hàng thay đổi thường xuyên ngay cả khi thiết bị của họ vẫn trực tuyến liên tục.

Giải pháp đã chuyển sang hướng tới dấu vân tay thiết bị và phân tích hành vi thay vì chặn IP đơn giản. Tuy nhiên, cách tiếp cận này làm dấy lên những lo ngại riêng về quyền riêng tư của người dùng và tiềm năng tạo ra các hệ thống giống như giám sát theo dõi người dùng qua các dịch vụ và phiên khác nhau.

Ý nghĩa pháp lý và bảo mật

Sự tăng trưởng của các mạng lưới proxy dân cư tạo ra rủi ro pháp lý nghiêm trọng cho những người tham gia không biết gì. Các trường hợp gần đây đã cho thấy rằng các cá nhân lưu trữ thiết bị proxy có thể đối mặt với các cáo buộc hình sự khi cơ sở hạ tầng đó được sử dụng cho các hoạt động bất hợp pháp. Một phụ nữ Arizona đã nhận án tù ba năm vì vận hành một trang trại laptop giúp các hacker Triều Tiên kiếm được hơn 600.000 đô la Mỹ, chứng minh rằng việc không biết cách thiết bị được sử dụng cung cấp ít bảo vệ pháp lý.

Các ý nghĩa bảo mật mở rộng vượt ra ngoài trách nhiệm cá nhân. Những mạng lưới này có thể được sử dụng cho mọi thứ từ gian lận nhấp chuột và tạo tài khoản đến các hoạt động tội phạm nghiêm trọng hơn, tất cả trong khi có vẻ như bắt nguồn từ các kết nối internet dân cư hợp pháp trên khắp Hoa Kỳ và các quốc gia khác.

Khi trí tuệ nhân tạo tiếp tục thúc đẩy nhu cầu về khả năng thu thập dữ liệu web, các mạng lưới proxy dân cư có khả năng trở nên tinh vi và phổ biến hơn nữa. Thách thức đối với cả các chuyên gia an ninh mạng và người dùng internet thông thường sẽ là phân biệt giữa lưu lượng hợp pháp và các hệ thống tự động được thiết kế để hòa nhập một cách liền mạch vào các mô hình duyệt web bình thường.

Tham khảo: DSLRoot, Proxles, and the Threat of 'Legal Botnets'