Google Loại Bỏ Tham Số Tìm Kiếm 100 Kết Quả, Gây Tranh Cãi Về Quyền Truy Cập Dữ Liệu Huấn Luyện AI

Nhóm Cộng đồng BigGo

Google Loại Bỏ Tham Số Tìm Kiếm 100 Kết Quả, Gây Tranh Cãi Về Quyền Truy Cập Dữ Liệu Huấn Luyện AI

Google đã âm thầm loại bỏ một tính năng tìm kiếm cho phép người dùng xem 100 kết quả trên một trang, giới hạn hiển thị chỉ còn 10 kết quả. Mặc dù điều này có vẻ như chỉ là một thay đổi nhỏ trong giao diện, nhưng nó đã gây ra cuộc thảo luận sôi nổi trong cộng đồng công nghệ về tác động của nó đối với các hệ thống AI và khả năng hiển thị của website.

Việc loại bỏ tham số num=100 đã đặt ra câu hỏi về cách các công ty AI thu thập dữ liệu huấn luyện và liệu họ có nên dựa vào kết quả tìm kiếm của Google ngay từ đầu hay không. Nhiều thành viên cộng đồng xem đây là một động thái được mong đợi hơn là một sự phát triển đáng ngạc nhiên.

Hạn chế Kết quả Tìm kiếm:

Giới hạn trước đây: 100 kết quả mỗi trang thông qua tham số num=100
Giới hạn mới: 10 kết quả mỗi trang (giới hạn cứng)
Tác động: 86% các trang web ghi nhận lượt hiển thị giảm theo báo cáo của Search Engine Land

Các Giải Pháp Kỹ Thuật Đã Tồn Tại

Cộng đồng công nghệ nhanh chóng chỉ ra rằng các giải pháp thay thế đã sẵn có. Common Crawl , một kho lưu trữ mở về dữ liệu web, cung cấp một giải pháp thay thế như vậy cho các công ty tìm kiếm nội dung web toàn diện. Một số nhà phát triển lưu ý rằng việc xây dựng các web crawler tùy chỉnh không đặc biệt phức tạp, cho thấy các công ty AI có thể sẽ phát triển hệ thống tìm kiếm riêng của họ trong vòng vài tháng.

Tuy nhiên, cuộc thảo luận cho thấy rằng crawling và indexing đặt ra những thách thức khác nhau. Trong khi crawling các trang web là đơn giản, việc tạo ra các hệ thống xếp hạng hiệu quả vẫn là thế mạnh cốt lõi của Google . Một số thành viên cộng đồng đặt câu hỏi liệu việc xếp hạng này có quan trọng đối với các hệ thống AI với context window lớn so với người dùng duyệt kết quả tìm kiếm hay không.

Đặt Câu Hỏi Về Các Tuyên Bố Ban Đầu

Cuộc thảo luận cộng đồng đã thách thức một số giả định trong báo cáo ban đầu. Nhiều người dùng chỉ ra rằng các công ty AI lớn như OpenAI sử dụng Bing cho chức năng tìm kiếm, trong khi Claude được cho là sử dụng Brave Search . Điều này cho thấy rằng tác động đến các pipeline huấn luyện AI có thể ít nghiêm trọng hơn so với tuyên bố ban đầu.

Tôi nghĩ OpenAI đang sử dụng Bing . Gemini rõ ràng sẽ sử dụng Google nhưng đối với họ thì hạn chế này không áp dụng. Claude nói rằng nó sử dụng Brave .

Cộng đồng cũng lưu ý rằng các nhà cung cấp AI lớn thường vận hành hệ thống crawling riêng của họ thay vì dựa vào giao diện tìm kiếm của Google , khiến việc loại bỏ tham số ít có ý nghĩa hơn đối với các player đã thành lập.

Các nguồn dữ liệu thay thế cho các công ty AI:

Common Crawl : Kho lưu trữ thu thập dữ liệu web mở
Bing Search API : Được sử dụng bởi OpenAI
Brave Search : Được sử dụng bởi Claude / Anthropic
Các crawler tùy chỉnh: OAI-SearchBot , GPTBot cho việc huấn luyện OpenAI

Cơ Hội Thị Trường Nổi Lên

Sự thay đổi này đã tạo ra các cơ hội kinh doanh tiềm năng cho các chuyên gia công nghệ tìm kiếm. Các kỹ sư tìm kiếm cũ của Google và các chuyên gia tương tự có thể tận dụng nhu cầu ngày càng tăng về cơ sở hạ tầng tìm kiếm độc lập khi các công ty AI tìm kiếm các giải pháp thay thế cho hệ sinh thái của Google .

Cuộc thảo luận nhấn mạnh rằng trong khi các thuật toán xếp hạng của Google mất nhiều năm để phát triển, các công nghệ cơ bản cho crawling và indexing đã được hiểu rõ. Điều này cho thấy rằng các công ty quyết tâm với đủ tài nguyên có thể xây dựng các giải pháp thay thế cạnh tranh, mặc dù việc sao chép khả năng nhận dạng mẫu và thẩm quyền của Google sẽ đòi hỏi đầu tư đáng kể.

Phản ứng của cộng đồng cho thấy rằng trong khi động thái của Google ảnh hưởng đến một số hệ thống, ngành công nghệ đã thích ứng với các cách tiếp cận và giải pháp thay thế.

Tham khảo: Google just cut off 90% of the internet from AI - no one's talking about it

Tin tức liên quan

‌

‌
‌

‌

‌
‌

‌