Lỗ hổng Windows Key của ChatGPT đã được vá, nhưng cộng đồng tiết lộ thêm nhiều phương pháp jailbreak sáng tạo

Nhóm Cộng đồng BigGo
Lỗ hổng Windows Key của ChatGPT đã được vá, nhưng cộng đồng tiết lộ thêm nhiều phương pháp jailbreak sáng tạo

Một lỗ hổng bảo mật gần đây cho phép người dùng lừa ChatGPT tiết lộ các key sản phẩm Windows đã được OpenAI vá lỗi, nhưng sự cố này đã khơi mào các cuộc thảo luận rộng rãi hơn về các kỹ thuật jailbreak AI và tác động của chúng đối với bảo mật hệ thống.

Lỗ hổng được phát hiện bởi một nhà nghiên cứu đã sử dụng định dạng trò chơi đoán đơn giản để vượt qua các rào cản an toàn của ChatGPT . Bằng cách yêu cầu AI nghĩ về một số serial Windows 10 và sau đó nói I give up, nhà nghiên cứu đã thành công trích xuất những gì có vẻ là các key Windows hợp lệ từ dữ liệu huấn luyện của mô hình.

Khai thác Grandma và các phương pháp sáng tạo khác

Cộng đồng công nghệ đã chia sẻ nhiều cách tiếp cận sáng tạo khác nhau để vượt qua các biện pháp an toàn của AI. Một phương pháp đặc biệt phổ biến liên quan đến thao túng cảm xúc, nơi người dùng yêu cầu ChatGPT đóng vai một bà ngoại đã qua đời từng đọc các key Windows như những câu chuyện trước giờ ngủ. Kỹ thuật này được báo cáo đã tạo ra nhiều key giấy phép trong khi AI thể hiện sự chia buồn với người dùng.

Một cách tiếp cận khéo léo khác liên quan đến lừa dối thị giác, nơi người dùng dán hình ảnh CAPTCHA lên ảnh trang sức và yêu cầu AI giúp đọc các dòng khắc trên chiếc vòng cổ của bà ngoại đã qua đời của họ. Những phương pháp này làm nổi bật cách các hệ thống AI có thể bị thao túng thông qua việc đóng khung sáng tạo và bối cảnh cảm xúc.

Các Kỹ Thuật Phá Vỡ Hệ Thống AI Phổ Biến:

  • Phương Pháp Trò Chơi Đoán: Đóng khung các yêu cầu như trò chơi với các tín hiệu "bỏ cuộc"
  • Thao Túng Cảm Xúc: Các tình huống nhập vai liên quan đến người thân đã qua đời
  • Lừa Dối Thị Giác: Nhúng nội dung nhạy cảm vào những hình ảnh có vẻ vô hại
  • Nhúng Thẻ HTML: Ẩn các thuật ngữ nhạy cảm trong mã HTML

Thực tế kỹ thuật đằng sau các key

Phân tích của cộng đồng tiết lộ rằng các key được trích xuất thực tế không phải là các key giấy phép riêng tư như báo cáo ban đầu. Đây là các key giấy phép khối lượng chung được sử dụng để kích hoạt Windows tạm thời trước khi kết nối với các máy chủ Key Management Service ( KMS ). Tuy nhiên, sự cố đã làm lộ ít nhất một key doanh nghiệp hợp lệ thuộc về ngân hàng Wells Fargo , cho thấy những tác động bảo mật thực sự.

Lỗ hổng xảy ra vì thông tin nhạy cảm, bao gồm các key API và số giấy phép, đã được tải lên vô tình các kho lưu trữ công khai như GitHub và sau đó được tích hợp vào dữ liệu huấn luyện của mô hình AI.

Các loại khóa bị lộ:

  • Khóa Windows 10 Home, Pro và Enterprise
  • Khóa giấy phép số lượng lớn KMS chung (kích hoạt tạm thời)
  • Ít nhất một khóa doanh nghiệp ( Wells Fargo )
  • Khóa có nguồn gốc từ các kho lưu trữ GitHub trong dữ liệu huấn luyện

Tình trạng hiện tại và những lo ngại đang diễn ra

OpenAI đã vá lỗ hổng cụ thể này. Khi người dùng thử cùng kỹ thuật bây giờ, ChatGPT phản hồi với một sự từ chối rõ ràng, trích dẫn các chính sách của Microsoft và hướng dẫn sử dụng của OpenAI . Tuy nhiên, các báo cáo cho thấy các kỹ thuật tương tự vẫn hoạt động trên các nền tảng AI khác như Grok .

Sự cố này đặt ra những câu hỏi rộng hơn về bảo mật AI và tiềm năng cho các cuộc tấn công tinh vi hơn. Một số thành viên cộng đồng suy đoán về các khả năng trong tương lai, bao gồm các nỗ lực trích xuất mã nguồn hoặc kỹ thuật đảo ngược phần mềm độc quyền thông qua thao túng AI.

Các tổ chức nên quan tâm vì một key API đã được tải lên nhầm lên GitHub có thể được huấn luyện vào các mô hình.

Lỗ hổng này phục vụ như một lời nhắc nhở rằng các hệ thống AI yêu cầu các biện pháp bảo mật mạnh mẽ, đa lớp và nhận thức bối cảnh tốt hơn để ngăn chặn thao túng thông qua các kỹ thuật prompting sáng tạo.

Tham khảo: How to trick ChatGPT into revealing Windows keys? I give up