Một thí nghiệm gần đây đã tiết lộ trí tuệ nhân tạo có thể học được bao nhiều thông tin về chúng ta từ những dữ liệu tưởng chừng vô hại. Khi một người dùng đưa bảy năm bài viết đã lưu trên Pocket của họ cho mô hình o3 của OpenAI, kết quả thu được vừa chính xác vừa chi tiết một cách đáng ngạc nhiên.
Thí nghiệm này bao gồm việc phân tích gần 900 bài viết đã lưu trải rộng trên nhiều chủ đề khác nhau. AI đã dự đoán thành công độ tuổi, vị trí địa lý, quy mô gia đình, mức thu nhập của người dùng, và thậm chí cả những chi tiết cụ thể như đức tin Công giáo và nghề nghiệp trong lĩnh vực kỹ thuật phần mềm. Điều đặc biệt ấn tượng là dữ liệu chỉ bao gồm các URL - không có thông tin cá nhân nào được cung cấp trực tiếp.
Các Yếu Tố Hồ Sơ Được Dự Đoán Thành Công
- Độ tuổi (từ giữa 30 đến đầu 40)
- Vị trí địa lý ( Coastal Virginia )
- Thành phần gia đình (đã kết hôn, 3-4 con nhỏ)
- Mức thu nhập (150-220 nghìn USD thu nhập hộ gia đình)
- Trình độ học vấn (Cử nhân/Thạc sĩ Khoa học Máy tính)
- Vai trò nghề nghiệp (Kỹ sư Phần mềm Cấp cao/Chuyên gia)
- Tôn giáo (Công giáo)
- Khuynh hướng chính trị (bảo thủ về tài chính, theo chủ nghĩa tự do dân sự)
Cộng Đồng Thử Nghiệm Cho Thấy Kết Quả Khác Nhau Giữa Các Mô Hình AI
Sau thí nghiệm ban đầu, một số thành viên cộng đồng đã thử nghiệm phương pháp này với các mô hình AI khác nhau và dữ liệu của chính họ. Một người dùng với 4.200 mục đã lưu phát hiện rằng trong khi giao diện của ChatGPT không thể xử lý đầu vào lớn như vậy, thì cả Gemini 2.5 Pro của Google và Claude Opus 4 của Anthropic đều cho ra các mức độ chính xác khác nhau. Gemini xác định chính xác các đặc điểm tính cách và sở thích nhưng bỏ lỡ những chi tiết nhân khẩu học quan trọng. Claude Opus ấn tượng khi đoán đúng vị trí của người dùng ( Amsterdam ) và tình trạng mối quan hệ nhưng gặp khó khăn với tình trạng làm cha mẹ.
Việc thử nghiệm tiết lộ một mô hình thú vị: các mô hình thường nhận dạng sai vai trò công việc khi người dùng có sở thích liên ngành. Một nhà khoa học dữ liệu thường xuyên đọc về kỹ thuật phần mềm đã liên tục được phân loại là kỹ sư phần mềm bởi nhiều mô hình.
So sánh hiệu suất các mô hình AI
Mô hình | Độ chính xác | Điểm mạnh | Điểm yếu |
---|---|---|---|
OpenAI o3 | Cao | Thông tin nhân khẩu học, vị trí, chi tiết gia đình | Yêu cầu đầu vào CSV trực tiếp |
Google Gemini 2.5 Pro | Trung bình | Tính cách, sở thích | Tuổi tác, vai trò công việc, vị trí |
Claude Opus 4 | Cao | Vị trí, tình trạng mối quan hệ | Tình trạng làm cha mẹ, phân loại công việc |
Tác Động Đến Quyền Riêng Tư và Ứng Dụng Rộng Hơn
Thí nghiệm này làm nổi bật những lo ngại ngày càng tăng về quyền riêng tư kỹ thuật số trong thời đại AI tiên tiến. Các thành viên cộng đồng lưu ý rằng công nghệ này hiện đã có sẵn công khai cho hầu như bất kỳ ai, không chỉ các công ty công nghệ lớn với nguồn lực khổng lồ. Một số người dùng báo cáo đã sử dụng các kỹ thuật tương tự để xác định những kẻ phá rối tiềm năng trực tuyến bằng cách phân tích lịch sử bình luận, trong khi những người khác lo lắng về tác động của việc các chatbot AI xây dựng hồ sơ chi tiết từ dữ liệu cuộc trò chuyện.
Tất cả các nền tảng có dữ liệu người dùng đều đang chạy LLM để tạo ra những hồ sơ như vậy cho các nhà quảng cáo của họ, tôi cá là vậy.
Cuộc thảo luận cũng tiết lộ các ứng dụng thực tế ngoài những lo ngại về quyền riêng tư. Người dùng đang khám phá các cách để tận dụng khả năng lập hồ sơ này cho hệ thống gợi ý nội dung cá nhân, tổ chức các bộ sưu tập bookmark lớn, và thậm chí tạo ra các nguồn cấp RSS được cá nhân hóa dựa trên hồ sơ sở thích do AI tạo ra.
Phân tích chi phí cho việc lập hồ sơ AI
- Đầu vào: ~4,200 URL (85,000 token)
- Đầu ra: ~2,000 token
- Chi phí qua API OpenAI o3: ~$0.18 USD
- Thời gian xử lý: Dưới 1 phút
Cân Nhắc Kỹ Thuật và Chi Phí
Từ góc độ thực tế, việc chạy phân tích như vậy có chi phí thấp đến ngạc nhiên. Xử lý khoảng 4.200 URL (xấp xỉ 85.000 token) thông qua mô hình o3 của OpenAI có chi phí khoảng 18 xu đô la Mỹ qua API. Tuy nhiên, người dùng phát hiện rằng việc dán trực tiếp dữ liệu CSV vào prompt hoạt động tốt hơn so với tải lên tệp, vì cách sau khiến các mô hình tập trung quá nhiều vào phân tích dữ liệu thay vì xây dựng câu chuyện.
Thí nghiệm này là lời nhắc nhở rằng những dấu vết kỹ thuật số của chúng ta tiết lộ nhiều thông tin về bản thân hơn những gì chúng ta có thể mong đợi. Khi khả năng AI tiếp tục phát triển, ranh giới giữa tiện lợi và quyền riêng tư ngày càng mờ nhạt, khiến việc người dùng hiểu được những gì dấu vết dữ liệu của họ có thể tiết lộ về cuộc sống cá nhân trở nên quan trọng.
Tham khảo: I used o3 to profile myself from my saved Pocket links