Dự án Từ điển Bluesky tiết lộ nền tảng chỉ thu thập được 35% từ vựng tiếng Anh dù đã xử lý 4 triệu bài đăng

Nhóm Cộng đồng BigGo
Dự án Từ điển Bluesky tiết lộ nền tảng chỉ thu thập được 35% từ vựng tiếng Anh dù đã xử lý 4 triệu bài đăng

Một thí nghiệm thú vị đang theo dõi liệu người dùng Bluesky có thể cùng nhau nói ra mọi từ trong tiếng Anh hay không. Dự án Bluesky Dictionary , được tạo ra bởi nhà phát triển Avi Bagla , giám sát các bài đăng thời gian thực của nền tảng để xem có bao nhiêu từ trong từ điển tiếng Anh xuất hiện trong các cuộc trò chuyện hàng ngày. Sau khi xử lý hơn 4 triệu bài đăng, kết quả cho thấy những khoảng trống đáng ngạc nhiên trong từ vựng số của chúng ta.

Phạm vi bao phủ hạn chế dù xử lý dữ liệu khổng lồ

Dự án đã phân tích 51,7 triệu từ từ 4,2 triệu bài đăng Bluesky , nhưng chỉ bao phủ 35,57% từ điển tiếng Anh tiêu chuẩn chứa 274.937 từ. Điều này có nghĩa là gần hai phần ba từ vựng tiếng Anh chưa bao giờ xuất hiện trong các bài đăng được phân tích. Các thành viên cộng đồng bày tỏ sự ngạc nhiên về việc một số từ bị thiếu khá phổ biến, lưu ý rằng những thuật ngữ hợp lý như congregant, definer và stereoscope vẫn chưa được phát hiện.

Tuy nhiên, hạn chế về phạm vi là đáng kể. Với Bluesky lưu trữ khoảng 1,7 tỷ tổng số bài đăng theo dữ liệu cộng đồng, dự án này chỉ kiểm tra 0,28% tổng số tin nhắn trên nền tảng. Kích thước mẫu nhỏ này có thể giải thích tại sao nhiều từ thông thường vẫn chưa được thu thập.

Thống kê hiện tại:

  • Độ bao phủ từ điển: 35.57% (97,796 trong tổng số 274,937 từ)
  • Tổng số từ đã xử lý: 51.7 triệu
  • Bài viết đã phân tích: 4.2 triệu
  • Kích thước cơ sở dữ liệu: 58 MB
  • Tốc độ xử lý dữ liệu: ~900 kbps

Triển khai kỹ thuật và thách thức thực tế

Hệ thống backend sử dụng phương pháp đơn giản với các bảng cơ sở dữ liệu SQLite theo dõi thống kê từ và mẫu sử dụng. Người tạo xử lý luồng dữ liệu của Bluesky với tốc độ khoảng 900 kilobit mỗi giây, lưu trữ từng từ duy nhất với số lượng và dấu thời gian sử dụng. Kích thước cơ sở dữ liệu 58 megabyte cho thấy dữ liệu văn bản có thể được lưu trữ và phân tích hiệu quả như thế nào.

Một số người dùng báo cáo khó khăn kỹ thuật khi truy cập trang web, gặp lỗi SSL và vấn đề CORS . Việc dựa vào JavaScript phía client để hiển thị kết quả đã tạo ra rào cản cho người dùng có cài đặt bảo mật trình duyệt nghiêm ngặt hoặc tường lửa doanh nghiệp.

Kiến trúc Kỹ thuật:

  • Backend: Cơ sở dữ liệu SQLite với hai bảng chính
  • Nguồn Dữ liệu: API Bluesky Jetstream (luồng dữ liệu nén)
  • Từ điển Từ vựng: "an-array-of-english-words" của GitHub (274,937 từ)
  • Xử lý: Phân tách từ và tra cứu theo thời gian thực
  • Lưu trữ: Số lượng từ, lần sử dụng đầu tiên, lần sử dụng cuối cùng và tham chiếu bài đăng

Khám phá bất ngờ và thao túng hệ thống

Dự án đã thu thập một số thuật ngữ thực sự khó hiểu như stigmatophilia, algolagnia và pyrosomes trong khi bỏ lỡ những từ thông thường. Một số người dùng đã bắt đầu cố tình đăng những từ hiếm trong từ điển để tăng tỷ lệ phần trăm bao phủ. Một người dùng đã thực hiện combo kép bằng cách sử dụng cả wheal và sluices trong một bài đăng duy nhất về chuyến thăm bảo tàng Cornwall .

Hệ thống cũng đối mặt với thách thức về độ chính xác, chẳng hạn như lập chỉ mục eluvium khi người dùng thảo luận về tên ban nhạc thay vì thuật ngữ địa chất. Vấn đề nhận dạng ngôn ngữ phát sinh khi các bài đăng tiếng Pháp chứa từ trông giống tiếng Anh được xử lý, mặc dù Bluesky có bao gồm metadata ngôn ngữ có thể giúp lọc kết quả.

Thí nghiệm này tiết lộ cách các cuộc trò chuyện số, dù có quy mô khổng lồ, chỉ đại diện cho một phần nhỏ ngôn ngữ con người. Ngay cả với hàng triệu bài đăng, từ vựng trực tuyến của chúng ta vẫn còn hạn chế đáng ngạc nhiên so với sự phong phú đầy đủ của tiếng Anh.

Tham khảo: The Bluesky Dictionary