Parse.bot đã ra mắt một dịch vụ hứa hẹn biến bất kỳ trang web nào thành API bằng cách sử dụng trí tuệ nhân tạo, nhưng cộng đồng nhà phát triển đang nêu lên những lo ngại đáng kể về những hạn chế cơ bản của web scraping như một nguồn dữ liệu đáng tin cậy.
Dịch vụ này cho phép người dùng mô tả dữ liệu họ cần từ một trang web bằng tiếng Anh thông thường, sau đó một tác nhân AI sẽ phân tích cấu trúc trang web và tạo ra một scraper tùy chỉnh với điểm cuối API. Mặc dù khái niệm này có vẻ đơn giản, các nhà phát triển có kinh nghiệm đang đặt câu hỏi liệu cách tiếp cận này có thể mang lại độ tin cậy mà các hệ thống sản xuất yêu cầu hay không.
Quy trình làm việc của Parse.bot:
- Bước 1: Người dùng cung cấp URL và mô tả dữ liệu cần thiết bằng ngôn ngữ thông thường
- Bước 2: Tác nhân AI phân tích cấu trúc trang web và tạo ra công cụ scraper tùy chỉnh
- Bước 3: Dịch vụ triển khai điểm cuối API riêng để truy cập dữ liệu có cấu trúc
Vấn Đề Hợp Đồng: Tại Sao Web Scraping Không Bao Giờ Có Thể Là API Thực Sự
Lời chỉ trích quan trọng nhất tập trung vào sự khác biệt cơ bản giữa web scraping và các API thực sự. Không giống như các API chính thức đi kèm với thỏa thuận dịch vụ và cam kết tương thích ngược, các trang web có thể thay đổi cấu trúc của chúng bất cứ lúc nào mà không cần thông báo. Điều này tạo ra một tính dễ vỡ vốn có mà không có lượng kỹ thuật thông minh nào có thể giải quyết hoàn toàn.
Các nhà phát triển chỉ ra rằng ngay cả với việc giám sát liên tục, các hệ thống được xây dựng trên dữ liệu được scrape phải xử lý những lỗi không thể dự đoán. Các trang web có thể trải qua A/B testing, thay đổi phương pháp trình bày dữ liệu của họ, hoặc hoàn toàn tái cấu trúc các trang của họ. Những thay đổi này có thể phá vỡ các scraper ngay lập tức, khiến các ứng dụng phụ thuộc không có cảnh báo hoặc biện pháp khắc phục.
A/B testing: Một phương pháp mà các trang web hiển thị các phiên bản khác nhau cho người dùng khác nhau để kiểm tra phiên bản nào hoạt động tốt hơn
Hạn Chế Kỹ Thuật Và Vấn Đề Overfitting Của AI
Ngoài những lo ngại về độ tin cậy, các nhà phát triển thường xuyên xây dựng scraper nêu bật các vấn đề thực tế với mã trích xuất được tạo bởi AI. Vấn đề chính là AI có xu hướng tạo ra các selector quá cụ thể hoạt động hoàn hảo cho trang hiện tại nhưng thất bại khi trang web thực hiện những thay đổi nhỏ.
Vấn đề là đối với bất kỳ việc sử dụng nghiêm túc nào của khái niệm này, một số điều chỉnh thủ công hầu như luôn cần thiết... thường thì đầu ra quá phù hợp với một trang cụ thể và không thể tổng quát hóa (về cơ bản là 'overfitting.')
Vấn đề overfitting này trở nên đặc biệt khó khăn khi các hệ thống AI chọn các CSS selector không ổn định, chẳng hạn như các tên class được tạo động thay đổi thường xuyên. Không có quyền truy cập vào mã cơ bản, người dùng không thể thực hiện những điều chỉnh chính xác cần thiết để tạo ra các scraper mạnh mẽ, lâu dài.
CSS selectors: Các mẫu mã được sử dụng để xác định các phần tử cụ thể trên các trang web Overfitting: Khi một hệ thống hoạt động quá cụ thể cho một ví dụ nhưng thất bại trên các trường hợp tương tự
Thiếu Thông Tin Quan Trọng Đặt Ra Câu Hỏi
Trang web của dịch vụ thiếu các chi tiết thiết yếu mà các nhà phát triển cần để đánh giá tính khả thi của nó. Không có thông tin về giá cả, cách nó xử lý xác thực trang web, phân trang, hoặc các hệ thống bảo vệ chống bot như Cloudflare. Việc thiếu tài liệu toàn diện cho thấy sản phẩm có thể vẫn đang trong giai đoạn phát triển đầu.
Một số nhà phát triển lưu ý rằng giao diện di động của trang web có các vấn đề về khả năng sử dụng đáng kể, điều này làm dấy lên lo ngại về việc thực thi kỹ thuật của các hệ thống backend. Nếu các thực hành phát triển web cơ bản không được tuân theo, điều đó đặt câu hỏi liệu dịch vụ có thể xử lý các thách thức phức tạp như giải captcha hoặc phát hiện bot tinh vi hay không.
Cloudflare: Một dịch vụ bảo vệ các trang web khỏi lưu lượng truy cập tự động và bot Pagination: Khi nội dung được chia thành nhiều trang
Những mối quan ngại chính của các nhà phát triển:
- Độ tin cậy: Các trang web có thể thay đổi cấu trúc mà không thông báo trước, khiến các scraper bị hỏng
- Gánh nặng bảo trì: Cần giám sát và cập nhật liên tục
- Hạn chế của AI: Mã được tạo ra thường quá khớp với các trang cụ thể
- Không có quyền truy cập mã: Người dùng không thể điều chỉnh scraper thủ công để tối ưu hóa
- Thiếu tài liệu: Không có thông tin về giá cả, xác thực, hoặc cách xử lý chống bot
Tác Động Rộng Lớn Đến Chủ Sở Hữu Trang Web
Cuộc thảo luận cũng tiết lộ những lo ngại từ các nhà vận hành trang web, những người đối mặt với áp lực ngày càng tăng từ cả thay đổi công cụ tìm kiếm và scraping tự động. Các trang web độc lập thấy mình bị kẹt giữa lưu lượng truy cập tự nhiên giảm và khả năng quá tải máy chủ từ các dịch vụ scraping, tạo ra những thách thức bổ sung cho các doanh nghiệp trực tuyến.
Mặc dù Parse.bot đại diện cho một ứng dụng thú vị của AI vào web scraping, sự đồng thuận của cộng đồng cho thấy những hạn chế cơ bản xung quanh độ tin cậy và bảo trì khiến nó không phù hợp cho các ứng dụng quan trọng. Dịch vụ có thể hoạt động cho việc thu thập dữ liệu thông thường, nhưng các hệ thống sản xuất có thể cần các lựa chọn thay thế ổn định hơn hoặc quan hệ đối tác trực tiếp với các nhà cung cấp dữ liệu.
Tham khảo: Turn Any Website Into An API.