Bộ lọc an toàn AI của Apple được tiết lộ: Chính trị gia, từ ngữ thô tục và tên thương hiệu đều bị chặn

Nhóm Cộng đồng BigGo
Bộ lọc an toàn AI của Apple được tiết lộ: Chính trị gia, từ ngữ thô tục và tên thương hiệu đều bị chặn

Một nhà nghiên cứu bảo mật đã thành công giải mã bộ lọc an toàn AI của Apple , tiết lộ cơ chế hoạt động bên trong về cách Apple Intelligence quyết định nội dung nào sẽ bị chặn hoặc chỉnh sửa. Các tệp bị rò rỉ cho thấy một hệ thống toàn diện gồm các biểu thức chính quy và bộ lọc từ khóa mà Apple sử dụng để kiểm soát đầu ra AI tạo sinh, gây ra các cuộc thảo luận về kiểm duyệt doanh nghiệp và phương pháp tiếp cận an toàn AI.

Triển khai Kỹ thuật:

  • Khóa mã hóa được trích xuất thông qua công cụ gỡ lỗi LLDB
  • Các tệp được lưu trữ trong /System/Library/AssetsV2/com_apple_MobileAsset_UAF_FM_Overrides/
  • Việc giải mã yêu cầu LLDB của Xcode và tiến trình GenerativeExperiencesSafetyInferenceProvider
  • Hệ thống an toàn đa lớp với các bộ lọc regex làm lớp sàng lọc đầu tiên

Chính trị gia trên toàn cầu đối mặt với việc chặn toàn diện

Khám phá đáng ngạc nhiên nhất trong bộ lọc an toàn của Apple là việc chặn rộng rãi các nhân vật chính trị từ khắp nơi trên thế giới. Hệ thống chặn việc đề cập đến các chính trị gia lớn bao gồm Justin Trudeau , Boris Johnson , Liz Truss , và thậm chí cả các lãnh đạo Nam Phi như Cyril Ramaphosa và Jacob Zuma . Đáng chú ý, Alexandria Ocasio-Cortez xuất hiện trong bộ lọc bản địa hóa tiếng Tây Ban Nha, trong khi Biden và Trump có các mẫu regex khác nhau được áp dụng cho họ.

Việc kiểm duyệt chính trị rộng rãi này đặt ra câu hỏi về cách tiếp cận trung lập AI của Apple . Các bộ lọc dường như không phân biệt theo đảng phái chính trị hay tư tưởng - chúng đơn giản chặn các nhân vật chính trị trên toàn bộ phổ. Một số thành viên cộng đồng suy đoán điều này có thể liên quan đến việc ngăn chặn tạo ra nội dung không phù hợp liên quan đến các nhân vật công chúng, đặc biệt là do lo ngại về công nghệ deepfake.

Các Nhân Vật Chính Trị Bị Chặn Bao Gồm:

  • Justin Trudeau ( Canada )
  • Boris Johnson , Liz Truss , Keir Starmer , Rishi Sunak ( UK )
  • Anthony Albanese , Christopher Luxon ( Australia / New Zealand )
  • Cyril Ramaphosa , Jacob Zuma , John Steenhuisen ( South Africa )
  • Michael D. Higgins ( Ireland )
  • Alexandria Ocasio-Cortez ( US - bản địa hóa tiếng Tây Ban Nha)
  • Biden và Trump ( US - các mẫu regex riêng biệt)

Thương hiệu doanh nghiệp được ưu tiên cùng với việc ngăn chặn nội dung về cái chết

Trong một động thái làm nổi bật các ưu tiên doanh nghiệp, bộ lọc an toàn của Apple đảm bảo việc viết hoa đúng tên thương hiệu Apple với cùng mức độ nghiêm ngặt được áp dụng để chặn nội dung về cái chết và tự tử. Hệ thống sẽ sửa imac thành iMac và duy trì định dạng phù hợp cho các sản phẩm Apple khác, coi tính nhất quán thương hiệu nghiêm túc như việc ngăn chặn nội dung có hại.

Các bộ lọc liên quan đến cái chết đáng chú ý là toàn diện, chặn các thuật ngữ khác nhau liên quan đến tự tử và bạo lực. Tuy nhiên, hệ thống không bao gồm tiếng lóng internet mới hơn như unalive - một thuật ngữ đã xuất hiện trên các nền tảng xã hội để lách qua các bộ lọc nội dung tương tự. Khoảng trống này làm nổi bật thách thức liên tục trong việc theo kịp ngôn ngữ phát triển được sử dụng để vượt qua kiểm duyệt tự động.

Lưu ý: Regex (biểu thức chính quy) là các quy tắc khớp mẫu được sử dụng để xác định các kết hợp văn bản cụ thể trong hệ thống máy tính.

Bộ lọc Regex đơn giản tiết lộ hạn chế an toàn AI

Việc triển khai kỹ thuật chủ yếu dựa vào khớp biểu thức chính quy cơ bản, có thể dễ dàng bị vượt qua bằng việc thay thế ký tự đơn giản. Ví dụ, Boris Johnson có thể trở thành B0ris Johnson để có khả năng lọt qua các bộ lọc. Cách tiếp cận này đại diện cho một tuyến phòng thủ đầu tiên thay vì một hệ thống an toàn được hỗ trợ bởi AI tinh vi.

Tôi thấy buồn cười khi AGI được cho là sắp xuất hiện, trong khi những LLM được cho là siêu thông minh này vẫn cần phải lọc đầu ra của chúng bằng regex.

Các bộ lọc hoạt động như một lớp sàng lọc sơ bộ trước khi các mô hình an toàn AI tiên tiến hơn của Apple tham gia. Cách tiếp cận đa lớp này cho thấy Apple ưu tiên hiệu quả, sử dụng khớp mẫu đơn giản để bắt các vi phạm rõ ràng trước khi triển khai các kiểm tra an toàn dựa trên AI tốn kém tính toán hơn.

Các Danh Mục Bộ Lọc:

  • reject: Các cụm từ chính xác kích hoạt vi phạm
  • remove: Các cụm từ bị loại bỏ khỏi đầu ra
  • replace: Thay thế cụm từ
  • regexReject: Chặn dựa trên mẫu sử dụng biểu thức chính quy
  • regexRemove: Loại bỏ dựa trên mẫu
  • regexReplace: Thay thế dựa trên mẫu

Tạo phẩm thử nghiệm và các cụm từ bí ẩn

Trong số các quy tắc an toàn hợp pháp, các nhà nghiên cứu đã tìm thấy các cụm từ thử nghiệm kỳ lạ như Granular Mango Serpent và xylophone copious opportunity defined elephant out. Những cụm từ này dường như là tạo phẩm thử nghiệm được sử dụng trong quá trình phát triển, với một số thành viên cộng đồng suy đoán chúng có thể phục vụ như từ viết tắt cho các quy trình thử nghiệm nội bộ hoặc token canary để phát hiện bản sao mô hình.

Sự hiện diện của những tàn dư thử nghiệm này cho thấy hệ thống an toàn AI của Apple vẫn đang được phát triển và tinh chỉnh tích cực. Công ty dường như đang có cách tiếp cận thận trọng, triển khai các bộ lọc rộng trong khi tiếp tục phát triển các cơ chế an toàn tinh vi hơn.

Việc tiết lộ những bộ lọc này cung cấp cái nhìn sâu sắc hiếm hoi về cách các công ty công nghệ lớn tiếp cận an toàn AI trong thực tế. Mặc dù các phương pháp có thể có vẻ thô sơ so với khả năng AI tiên tiến, chúng đại diện cho một cách tiếp cận thực dụng để ngăn chặn việc tạo ra nội dung có vấn đề ở quy mô lớn. Khi các hệ thống AI trở nên phổ biến hơn trong các thiết bị tiêu dùng, sự cân bằng giữa an toàn, chức năng và tự do biểu đạt có thể sẽ vẫn là một vấn đề gây tranh cãi trong ngành công nghệ.

Tham khảo: apple_generative_model_safety_decrypted