Bản Cập Nhật Thuật Toán Của X Tiết Lộ Nhiều Nội Dung Bị Che Giấu và Thiếu Các Thành Phần Quan Trọng

Nhóm Cộng đồng BigGo
Bản Cập Nhật Thuật Toán Của X Tiết Lộ Nhiều Nội Dung Bị Che Giấu và Thiếu Các Thành Phần Quan Trọng

X (trước đây là Twitter ) đã phát hành phiên bản cập nhật của mã nguồn thuật toán đề xuất sau khoảng trống hai năm, nhưng phản ứng của cộng đồng phần lớn mang tính chỉ trích. Bản phát hành này tiếp tục mô hình cung cấp những hiểu biết về kiến trúc trong khi giữ lại những thành phần quan trọng cần thiết để hiểu cách nền tảng thực sự hoạt động.

Thiếu Trọng Số và Dữ Liệu Huấn Luyện Khiến Mã Nguồn Trở Nên Vô Dụng

Hạn chế đáng kể nhất của bản phát hành mã nguồn mở của X vẫn là việc thivắng trọng số mô hình và dữ liệu huấn luyện. Không có những thành phần này, các nhà phát triển không thể tái tạo hoặc phân tích một cách có ý nghĩa về cách hệ thống đề xuất của X thực sự hoạt động trong thực tế. Mã kiến trúc và framework cung cấp một bản thiết kế, nhưng nó giống như việc có bản vẽ kỹ thuật của một chiếc xe mà không có động cơ hay hệ thống nhiên liệu.

Cách tiếp cận này đã được so sánh với các bản phát hành mã nguồn mở trước đó của Tesla , nơi chỉ chia sẻ những tệp tối thiểu mặc dù truyền thông đưa tin rộng rãi về việc tuyên bố minh bạch hoàn toàn. Mô hình này cho thấy những bản phát hành này phục vụ nhiều hơn như các bài tập quan hệ công chúng thay vì những đóng góp mã nguồn mở thực sự.

Việc Che Giấu Mã Nguồn Rộng Rãi Hạn Chế Phân Tích Kỹ Thuật

Các thành viên cộng đồng kiểm tra mã nguồn đã phát hiện nhiều nội dung bị che giấu khắp codebase. Các truy vấn SQL chứa dấu chấm lửng ở nơi nên có schema cơ sở dữ liệu và logic thực tế, và các chi tiết cấu hình quan trọng được thay thế bằng văn bản giữ chỗ. Một số tệp chứa tham chiếu hardcode đến khóa xác thực và bí mật đã bị loại bỏ, khiến mã nguồn không hợp lệ về mặt cú pháp.

Không chỉ không có trọng số. Không chắc mọi người kỳ vọng gì nhưng nhiều lúc đây thậm chí không phải là mã hợp lệ với tất cả việc che giấu mà họ đã làm.

Việc che giấu mở rộng vượt ra ngoài các mối quan tâm về bảo mật để bao gồm logic thuật toán cơ bản, khiến việc hiểu cách lọc nội dung, xếp hạng và đưa ra quyết định đề xuất thực sự được thực hiện trở nên bất khả thi.

Các Tính Năng Nhắm Mục tiêu Chính Trị Gây Tranh Cãi

Một trong những khám phá được thảo luận nhiều nhất trong bản phát hành mã nguồn là sự hiện diện của các tính năng phân loại chính trị rõ ràng. Mã nguồn gốc bao gồm các cờ cho author_is_elon, author_is_democrat, và author_is_republican, hiện đã được thay thế bằng các hệ thống phân loại chính trị dựa trên Grok bao gồm grok_politics_leftgrok_politics_right.

Trong khi X tuyên bố những tính năng này chỉ được sử dụng để theo dõi số liệu thay vì quảng bá nội dung, việc phát hiện này đã đặt ra câu hỏi về thiên vị thuật toán và nhắm mục tiêu chính trị trên nền tảng. Sự hiện diện của cờ author_is_elon đặc biệt làm nổi bật mối quan tâm về đặc quyền của chủ sở hữu trong phân phối nội dung.

Sự Phát Triển Của Các Tính Năng Phân Loại Chính Trị

Các Tính Năng Gốc (Đã Loại Bỏ):

  • author_is_elon
  • author_is_democrat
  • author_is_republican

Các Tính Năng Hiện Tại Dựa Trên Grok:

  • grok_politics_neutral
  • grok_politics_left
  • grok_politics_right
  • Các danh mục bổ sung: grok_category_sports, grok_category_music

Lưu ý: X tuyên bố rằng những tính năng này chỉ được sử dụng để theo dõi số liệu, không phải để quảng bá nội dung

Cộng Đồng Đặt Câu Hỏi Về Tính Xác Thực Của Mã Nguồn Production

Các chuyên gia kỹ thuật phân tích bản phát hành đã bày tỏ nghi ngờ về việc liệu mã nguồn được công bố có thực sự chạy trong môi trường production của X hay không. Sự kết hợp của việc che giấu rộng rãi, timestamp lỗi thời và các phần không hợp lệ về mặt cú pháp cho thấy mã nguồn có thể là một phiên bản đã được làm sạch thay vì hệ thống production thực tế.

Các kỹ sư Twitter cũ đã lưu ý rằng mã nguồn dường như là một túi hỗn hợp ngẫu nhiên của nội dung kho lưu trữ thay vì một đại diện mạch lạc của hệ thống đề xuất trực tiếp. Các nhân viên hiện tại đã phản bác đặc điểm này, nhưng khoảng trống hai năm giữa các bản cập nhật và việc che giấu rõ ràng khiến việc xác minh trở nên bất khả thi.

Kết Luận

Bản phát hành thuật toán của X tiếp tục không đạt được sự minh bạch có ý nghĩa. Mặc dù nó cung cấp một số hiểu biết về kiến trúc cho các nhà nghiên cứu và đối thủ cạnh tranh, việc thiếu trọng số, che giấu rộng rãi và tính xác thực đáng ngờ hạn chế giá trị thực tế của nó. Bản phát hành dường như được thiết kế nhiều hơn cho các tiêu đề báo chí thay vì hợp tác mã nguồn mở thực sự, để lại cho cộng đồng nhiều câu hỏi hơn câu trả lời về cách một trong những nền tảng truyền thông xã hội lớn nhất thế giới thực sự hoạt động.

Tham khảo: X's Recommendation Algorithm