Trang Web Wikipedia Clone Được Tạo Bởi AI Đóng Cửa Sau Khi Chi Phí Scraping Tự Động Khiến Người Tạo Mất 70 Đô La Mỹ Chỉ Trong Một Đêm

Nhóm Cộng đồng BigGo
Trang Web Wikipedia Clone Được Tạo Bởi AI Đóng Cửa Sau Khi Chi Phí Scraping Tự Động Khiến Người Tạo Mất 70 Đô La Mỹ Chỉ Trong Một Đêm

Một thử nghiệm của nhà phát triển nhằm tạo ra một Wikipedia vô hạn được sinh ra bởi AI đã gặp phải trở ngại bất ngờ. Dự án có tên EndlessWiki buộc phải tạm thời vô hiệu hóa tính năng tạo trang mới sau khi lưu lượng truy cập tự động đã tạo ra chi phí suy luận lên tới 70 đô la Mỹ chỉ trong một đêm.

Người tạo ra EndlessWiki như một cách tương tác để khám phá kiến thức chứa trong các mô hình ngôn ngữ lớn. Khác với Wikipedia truyền thống, mọi trang trên trang web này đều được AI tạo ra theo yêu cầu khi người dùng nhấp vào các liên kết. Ý tưởng này lấy cảm hứng từ Library of Babel của Jorge Luis Borges - ý tưởng rằng các mô hình ngôn ngữ chứa đựng các mảng văn bản khổng lồ đang chờ được khám phá.

Tác động chi phí:

  • Chi phí thu thập dữ liệu qua đêm: 70 USD
  • Loại lưu lượng truy cập: Bot tự động nhấp vào các liên kết
  • Mô hình chi phí ban đầu: Truy cập miễn phí, không yêu cầu đăng nhập
  • Tình trạng hiện tại: Đã kích hoạt lại với giới hạn tốc độ

Thực Tế Đắt Đỏ Của Các Dịch Vụ AI Công Cộng

Những gì bắt đầu như một thử nghiệm vô tội nhanh chóng trở thành một bài học đắt giá về thực tế internet. Nhà phát triển ban đầu không lo lắng về chi phí, cho rằng việc nhấp chuột thủ công sẽ giữ mức sử dụng ở mức hợp lý. Tuy nhiên, các bot tự động bắt đầu scraping trang web qua đêm, tạo ra từng trang một và đẩy chi phí suy luận lên cao.

Phản ứng của cộng đồng đã làm nổi bật một vấn đề rộng lớn hơn với các dịch vụ web công cộng. Nhiều nhà phát triển chỉ ra rằng lưu lượng bot đơn giản là một thực tế của cuộc sống đối với bất kỳ trang web công cộng nào. Các công cụ tìm kiếm, scraper và nhiều công cụ tự động khác liên tục thu thập dữ liệu web, thường không quan tâm đến chi phí tính toán mà chúng áp đặt lên các nhà vận hành trang web.

Một quan sát đặc biệt sâu sắc từ cộng đồng đã lưu ý đến sự mỉa mai của tình huống:

Đó là một kết thúc mang tính thơ ca, xem xét rằng chính hoạt động scraping mà không quan tâm đến chi phí cho các nhà vận hành trang web là cách mà những mô hình này được huấn luyện ngay từ đầu.

Thách Thức Kỹ Thuật và Các Biện Pháp Chống Gian Lận

Ngoài mối quan tâm về chi phí, dự án còn đối mặt với những thách thức kỹ thuật thú vị. Nhà phát triển đã triển khai một hệ thống chống gian lận để ngăn người dùng điều hướng thủ công đến các trang cụ thể thông qua thao tác URL. Mỗi liên kết bao gồm một tham số origin được xác thực phía server để đảm bảo người dùng thực sự đang theo dõi cấu trúc liên kết được tạo bởi AI.

Kiến trúc tự nó vẫn tương đối đơn giản: một cơ sở dữ liệu MySQL lưu trữ các trang được tạo và một server Golang phục vụ nội dung hiện có hoặc tạo các trang mới bằng mô hình Kimi K2 thông qua dịch vụ suy luận của Groq. Việc lựa chọn một mô hình lớn hơn là có chủ ý, vì các mô hình lớn hơn thường chứa nhiều kiến thức thực tế hơn phù hợp với nội dung kiểu bách khoa toàn thư.

Kiến trúc Kỹ thuật:

  • Backend: Máy chủ Golang với cơ sở dữ liệu MySQL
  • Mô hình AI: Ban đầu sử dụng Kimi K2 , sau đó chuyển sang GPT-OSS-120B
  • Nhà cung cấp Suy luận: Groq (được chọn vì tốc độ và độ tin cậy)
  • Thời gian Phản hồi: Vài trăm mili giây để tạo trang
  • Chống gian lận: Hệ thống xác thực origin slug

Sự Hoài Nghi Của Cộng Đồng và Mối Quan Tâm Về Ảo Giác

Phản ứng của cộng đồng cho thấy cảm xúc trái chiều về nội dung bách khoa toàn thư được tạo bởi AI. Một số người dùng bày tỏ lo ngại về khả năng thông tin ảo giác, mô tả nó như một con dốc trơn trượt dẫn đến địa ngục ảo giác. Những người khác đặt câu hỏi liệu việc loại bỏ kiểm soát biên tập của con người - điều mà nhiều người coi là điểm mạnh của Wikipedia - có làm suy yếu toàn bộ khái niệm hay không.

Bất chấp những lo ngại này, một số thành viên cộng đồng đã thấy tiềm năng trong cách tiếp cận này. Họ đề xuất rằng với việc kiểm tra thực tế và xác minh trích dẫn phù hợp, các wiki được tạo bởi AI có thể bao phủ nhiều chủ đề hơn so với các phiên bản được chỉnh sửa bởi con người, có thể trở nên lớn gấp 1000 lần so với Wikipedia hiện tại.

Tương Lai Của Việc Khám Phá Kiến Thức Được Hỗ Trợ Bởi AI

Nhà phát triển đã kích hoạt lại dịch vụ với giới hạn tốc độ và chuyển sang một mô hình khác ( GPT-OSS-120B ) để quản lý chi phí. Sự cố này làm nổi bật những thách thức đang diễn ra trong việc làm cho các dịch vụ AI có thể truy cập công khai trong khi quản lý chi phí vận hành.

Dự án đại diện cho một phần của xu hướng rộng lớn hơn hướng tới các giao diện không phải chat cho các mô hình ngôn ngữ. Thay vì tương tác hỏi-đáp truyền thống, EndlessWiki cung cấp một cách tiếp cận khám phá hơn đối với việc khám phá kiến thức AI, tương tự như cách mọi người tự nhiên duyệt Wikipedia bằng cách theo dõi các liên kết thú vị.

Trong khi tương lai gần của EndlessWiki vẫn không chắc chắn do áp lực chi phí, thử nghiệm đã cung cấp những hiểu biết có giá trị về cả tiềm năng và cạm bẫy của việc dân chủ hóa việc tạo ra kiến thức được hỗ trợ bởi AI.

Tham khảo: Endless Al-generated Wikipedia