Cộng đồng công nghệ tranh luận tại sao AI thành công trong khi Semantic Web thất bại

Nhóm Cộng đồng BigGo
Cộng đồng công nghệ tranh luận tại sao AI thành công trong khi Semantic Web thất bại

Thế giới công nghệ đang sôi sục với một lập luận gây tranh cãi: các hệ thống AI hiện đại như ChatGPT ấn tượng không phải vì chúng đại diện cho kỹ thuật tinh tế, mà vì chúng là những giải pháp mạnh mẽ để khắc phục hàng thập kỷ thất bại trong việc tổ chức thông tin đúng cách. Cuộc tranh luận này đã khơi dậy những thảo luận sôi nổi về việc liệu chúng ta có đi đúng hướng trong lịch sử máy tính hay không.

Vấn đề cốt lõi: Cấu trúc hay Tìm kiếm

Cuộc thảo luận tập trung vào sự thay đổi cơ bản trong cách chúng ta xử lý thông tin. Thay vì xây dựng các hệ thống được tổ chức tốt với cấu trúc rõ ràng, ngành công nghiệp đã liên tục chọn phương pháp tìm kiếm mọi thứ. Google Drive là ví dụ điển hình cho mô hình này - thay vì tạo ra các công cụ tổ chức tệp tốt hơn, Google chỉ đơn giản thêm khả năng tìm kiếm mạnh mẽ và bảo người dùng đổ mọi thứ vào các thư mục.

Mô hình tương tự xuất hiện ở khắp mọi nơi. Các trang thương mại điện tử làm quá tải các trang sản phẩm với từ khóa thay vì xây dựng hệ thống điều hướng logic. Các công ty triển khai chatbot thay vì viết tài liệu rõ ràng. Kết quả là một thế giới số nơi việc tìm kiếm thông tin đòi hỏi các thuật toán tìm kiếm ngày càng tinh vi thay vì tổ chức trực quan.

Tại sao Semantic Web không bao giờ xảy ra

Cộng đồng đã xác định một số lý do chính tại sao semantic web - tầm nhìn về dữ liệu có cấu trúc, có thể đọc được bằng máy trên khắp internet - không bao giờ trở thành hiện thực. Các động cơ kinh tế đóng vai trò quan trọng. Các công ty công khai thù địch với việc làm cho thông tin có giá trị của họ dễ dàng bị cạo bởi các đối thủ cạnh tranh. Như một nhà phát triển đã lưu ý, các doanh nghiệp muốn khách truy cập xem quảng cáo của họ, chứ không phải để nội dung của họ bị bot tiêu thụ và đóng gói lại bởi các công ty khác.

Các thách thức kỹ thuật cũng nổi lên. Nội dung web được tạo ra bởi con người, không phải kỹ sư, khiến việc thực thi các tiêu chuẩn nhất quán trở nên khó khăn. Các trình duyệt chọn tính linh hoạt hơn là tuân thủ nghiêm ngặt, hiển thị các trang theo cách cố gắng tốt nhất thay vì phá vỡ các trang không tuân thủ.

*Semantic web: Một tầm nhìn cho World Wide Web nơi dữ liệu được cấu trúc và liên kết theo những cách giúp máy móc dễ dàng đọc được, cho phép xử lý thông tin thông minh hơn.

So sánh các mô hình điện toán lịch sử:

  • Tầm nhìn những năm 1990-2000: Web ngữ nghĩa có cấu trúc với dữ liệu liên kết
  • Thực tế hiện tại: Dữ liệu không có cấu trúc được xử lý bởi các thuật toán tìm kiếm mạnh mẽ
  • Phương pháp AI: Nhận dạng mẫu bằng sức mạnh tính toán trên thông tin hỗn loạn
  • Con đường thay thế: Cơ sở tri thức có cấu trúc với khả năng truy vấn hiệu quả

Giải pháp Vũ phu

Các hệ thống AI hiện đại như các mô hình ngôn ngữ lớn đại diện cho những gì nhiều người coi là giải pháp vũ phu cho những thất bại tổ chức này. Thay vì yêu cầu dữ liệu có cấu trúc, các hệ thống này quét web hỗn loạn và xây dựng các bản đồ ngữ nghĩa tạm thời trên mọi thứ. Chúng có thể trả lời các câu hỏi phức tạp nhiều bước mà các công cụ tìm kiếm truyền thống sẽ bó tay, nhưng với chi phí tính toán khổng lồ.

LLM tái hydrat hóa những thứ này cho chúng ta, làm cho chúng dễ chấp nhận hơn đáng kể; nếu bạn đã quen với việc gặm trái cây khô, chúng có vẻ tuyệt vời. Nhưng vẫn còn rất nhiều việc phải làm.

Sự mỉa mai không hề mất đi đối với các nhà phát triển nhớ thời khi máy tính đang trở nên nhanh hơn nhưng bằng cách nào đó lại khó sử dụng hơn. Trong khi các máy hiện đại có thể thực hiện hàng nghìn phép tính mỗi giây, chúng ta đã đầu tư hàng tỷ đô la vào các hệ thống chạy GPU có thể mô phỏng việc hiểu ngôn ngữ nhưng lại gặp khó khăn với các tác vụ cơ bản như đếm chữ cái trong từ.

Các Khái Niệm Kỹ Thuật Chính Được Thảo Luận:

  • Semantic Web: Dữ liệu web có cấu trúc, có thể đọc được bằng máy với khả năng liên kết phong phú
  • Large Language Models (LLMs): Các hệ thống AI xử lý và tạo ra văn bản giống con người
  • Vector Databases: Hệ thống lưu trữ cho các biểu diễn dữ liệu tương thích với AI
  • Knowledge Graphs: Mạng lưới thông tin có cấu trúc được kết nối với nhau
Một bản tổng quan do AI tạo ra thể hiện khả năng tổng hợp thông tin của các hệ thống AI hiện đại
Một bản tổng quan do AI tạo ra thể hiện khả năng tổng hợp thông tin của các hệ thống AI hiện đại

Nhìn về phía trước: Cấu trúc hay Linh hoạt?

Cuộc tranh luận tiết lộ sự chia rẽ triết học sâu sắc hơn trong máy tính. Một số người cho rằng nếu chúng ta đã thành công trong việc tạo ra các cơ sở tri thức có cấu trúc đúng đắn, được liên kết ngữ nghĩa, chúng ta có thể trả lời các câu hỏi phức tạp bằng cách sử dụng ít năng lực tính toán hơn nhiều trong khi vẫn giữ thông tin có thể truy cập và hiểu được.

Những người khác cho rằng quan điểm này không thực tế. Các hệ thống phức tạp liên quan đến nhiều tác nhân khác nhau với các động cơ cạnh tranh. Mong đợi mọi người tuân theo các tiêu chuẩn hoàn hảo là bỏ qua bản chất con người và thực tế lộn xộn về cách công nghệ thực sự được xây dựng và triển khai.

Cuộc thảo luận có ý nghĩa thực tiễn đối với việc phát triển AI hiện tại. Một số công ty đang khám phá liệu các hệ thống AI có thể giúp tạo ra các đồ thị tri thức có cấu trúc mà con người đã thất bại trong việc xây dựng thủ công, có khả năng kết hợp những điều tốt nhất của cả hai phương pháp.

Việc AI có đại diện cho một chiến thắng của kỹ thuật hay một băng gạc đắt tiền trên kiến trúc thông tin kém vẫn đang được tranh luận sôi nổi. Điều rõ ràng là cuộc trò chuyện này phản ánh những câu hỏi rộng lớn hơn về cách chúng ta muốn tương lai số của mình hoạt động - và liệu chúng ta có đang xây dựng các hệ thống thực sự phục vụ nhu cầu con người hay chỉ là những minh chứng công nghệ ấn tượng.

Tham khảo: Al is impressive because we've failed at semantic web and personal computing