Hệ thống AI dễ bị tấn công bằng văn bản ẩn thông qua lỗ hổng thu phỏng hình ảnh

Nhóm Cộng đồng BigGo
Hệ thống AI dễ bị tấn công bằng văn bản ẩn thông qua lỗ hổng thu phỏng hình ảnh

Các nhà nghiên cứu đã phát hiện ra một lỗ hổng bảo mật đáng lo ngại trong các hệ thống AI cho phép kẻ tấn công ẩn các chỉ thị độc hại trong hình ảnh mà chỉ hiện ra sau khi hệ thống tự động thay đổi kích thước chúng. Kỹ thuật này đã thành công trong việc xâm phạm các nền tảng lớn bao gồm Google Gemini , Vertex AI , và Google Assistant , đặt ra những câu hỏi nghiêm túc về bảo mật của các ứng dụng AI hiện đại.

Cuộc tấn công khai thác một điểm yếu cơ bản trong cách các hệ thống AI xử lý hình ảnh. Khi người dùng tải lên những hình ảnh lớn, các hệ thống này thường thu nhỏ chúng để giảm chi phí xử lý và đáp ứng yêu cầu về kích thước. Tuy nhiên, việc tối ưu hóa tưởng chừng vô hại này tạo ra cơ hội cho kẻ tấn công nhúng văn bản ẩn mà chỉ xuất hiện sau quá trình thu phỏng.

Các hệ thống AI bị ảnh hưởng:

  • Google Gemini CLI
  • Vertex AI Studio
  • Giao diện web và API của Gemini
  • Google Assistant (Android)
  • Genspark
  • Nhiều hệ thống AI sản xuất khác
Hình ảnh này minh họa kết quả so sánh giữa một hình ảnh gốc và phiên bản thu nhỏ của nó, làm nổi bật những rủi ro tiềm ẩn liên quan đến việc thay đổi kích thước hình ảnh trong các hệ thống AI
Hình ảnh này minh họa kết quả so sánh giữa một hình ảnh gốc và phiên bản thu nhỏ của nó, làm nổi bật những rủi ro tiềm ẩn liên quan đến việc thay đổi kích thước hình ảnh trong các hệ thống AI

Nền tảng kỹ thuật của cuộc tấn công

Lỗ hổng bắt nguồn từ các nguyên lý toán học đằng sau thuật toán thu nhỏ hình ảnh. Khi một hình ảnh được giảm kích thước, nhiều pixel độ phân giải cao được kết hợp thành các pixel độ phân giải thấp đơn lẻ thông qua các phương pháp nội suy như thuật toán nearest neighbor, bilinear, hoặc bicubic. Kẻ tấn công có thể thao túng các pixel cụ thể trong hình ảnh gốc để khi các thuật toán này xử lý chúng, văn bản ẩn sẽ xuất hiện trong phiên bản thu nhỏ.

Kỹ thuật này dựa trên định lý lấy mẫu Nyquist-Shannon , mô tả cách thông tin có thể bị mất hoặc bị biến dạng khi tốc độ lấy mẫu không đủ. Bằng cách tạo ra một cách cẩn thận các giá trị pixel trong vùng tối của hình ảnh, kẻ tấn công có thể khiến văn bản xuất hiện với độ tương phản cao so với nền sau khi thu phỏng, trong khi vẫn hầu như vô hình trong hình ảnh gốc.

Nội suy: Một phương pháp toán học được sử dụng để ước tính các giá trị giữa các điểm dữ liệu đã biết, trong trường hợp này là xác định màu sắc pixel khi giảm kích thước hình ảnh.

Các thuật toán thu nhỏ hình ảnh được khai thác:

  • Nội suy láng giềng gần nhất: Phương pháp đơn giản nhất, sử dụng giá trị pixel gần nhất
  • Nội suy song tuyến tính: Xem xét 4 pixel xung quanh để có kết quả mượt mà hơn
  • Nội suy song lập phương: Sử dụng 16 pixel (lưới 4x4) với đa thức bậc ba để có chất lượng cao nhất

Mối quan ngại của cộng đồng về kiến trúc bảo mật AI

Cộng đồng bảo mật đã bày tỏ mối quan ngại sâu sắc về thiết kế cơ bản của các mô hình ngôn ngữ lớn và hệ thống thị giác. Vấn đề cốt lõi nằm ở chỗ các hệ thống AI này không thể phân biệt giữa các chỉ thị hợp pháp và nội dung độc hại được nhúng trong đầu vào của người dùng. Mọi thứ mà AI nhận thức được đều trở thành một phần của bối cảnh xử lý của nó, tạo ra thứ mà các chuyên gia mô tả là sự thiếu hoàn toàn sự tách biệt giữa mã và dữ liệu.

Chúng ta đã thiết kế một hệ thống chỉ hỗ trợ tín hiệu trong băng tần, làm mất đi những bài học khó khăn đã học được từ thiết kế hệ thống trước đây.

Hạn chế kiến trúc này có nghĩa là các phương pháp bảo mật truyền thống là không đủ. Không giống như các hệ thống phần mềm thông thường có thể thực hiện các ranh giới nghiêm ngặt giữa các loại đầu vào khác nhau, các mô hình AI xử lý tất cả thông tin thông qua cùng các đường dẫn thần kinh, khiến việc ngăn chặn các chỉ thị độc hại được thực thi trở nên cực kỳ khó khăn.

Tác động thực tế và phương pháp khai thác

Các nhà nghiên cứu đã chứng minh thành công các cuộc tấn công trích xuất dữ liệu chống lại Gemini CLI của Google bằng cách kết hợp lỗ hổng thu phỏng hình ảnh với các cấu hình mặc định quá khoan dung. Trong bằng chứng khái niệm của họ, họ đã cấu hình hệ thống để tự động phê duyệt các lời gọi công cụ mà không cần xác nhận của người dùng, sau đó sử dụng một hình ảnh được tạo ra để kích hoạt các hành động trích xuất thông tin nhạy cảm từ email của người dùng.

Cuộc tấn công hoạt động trên nhiều nền tảng và giao diện, bao gồm ứng dụng web, thiết bị di động và điểm cuối API. Điều làm cho điều này đặc biệt nguy hiểm là người dùng nhìn thấy hình ảnh gốc vô hại trong khi hệ thống AI xử lý phiên bản thu nhỏ độc hại, tạo ra sự ngắt kết nối hoàn toàn giữa nhận thức của người dùng và thực tế hệ thống.

Kỹ thuật này đã được chứng minh là hiệu quả chống lại các thuật toán và triển khai thu nhỏ khác nhau trên các thư viện phần mềm khác nhau, cho thấy đây không phải là lỗ hổng cô lập mà là vấn đề hệ thống ảnh hưởng đến hệ sinh thái AI rộng lớn hơn.

Chiến lược phòng thủ và hạn chế

Các phương pháp giảm thiểu hiện tại đối mặt với những thách thức đáng kể do bản chất cơ bản của cách các hệ thống AI xử lý thông tin thị giác. Trong khi một số đề xuất tránh hoàn toàn việc thu nhỏ hình ảnh và thay vào đó giới hạn kích thước tải lên, phương pháp này có thể không thực tế cho tất cả các ứng dụng.

Biện pháp phòng thủ mạnh mẽ nhất bao gồm việc triển khai các mẫu thiết kế bảo mật yêu cầu xác nhận rõ ràng của người dùng cho bất kỳ hoạt động nhạy cảm nào, bất kể yêu cầu bắt nguồn từ đâu. Tuy nhiên, điều này xung đột với trải nghiệm người dùng liền mạch mà nhiều ứng dụng AI hướng tới.

Các nỗ lực huấn luyện mô hình để bỏ qua văn bản trong hình ảnh hoặc triển khai hệ thống lọc đối mặt với vấn đề cuộc chạy đua vũ trang cổ điển. Kẻ tấn công có thể thích ứng bằng cách sử dụng các ngôn ngữ khác nhau, mã hóa văn bản trong mã QR , điều chỉnh mức độ tương phản, hoặc nhúng chỉ thị vào các yếu tố thị giác tinh tế hơn.

Tính năng của Công cụ Anamorpher:

  • Trình tạo tấn công thu nhỏ hình ảnh mã nguồn mở
  • Hỗ trợ các thuật toán thu nhỏ chính
  • Bộ kiểm tra dấu vân tay tùy chỉnh với các mẫu bàn cờ, vòng tròn đồng tâm và mẫu Moiré
  • Giao diện người dùng và API Python
  • Backend modular cho các thuật toán thu nhỏ tùy chỉnh

Ý nghĩa đối với phát triển AI

Lỗ hổng này làm nổi bật những mối quan ngại rộng lớn hơn về mô hình bảo mật của các hệ thống AI hiện tại. Bản chất không xác định của mạng thần kinh khiến việc đảm bảo rằng các biện pháp bảo mật sẽ hoạt động nhất quán trở nên bất khả thi. Không giống như phần mềm truyền thống nơi các ranh giới bảo mật có thể được thực thi thông qua cấu trúc mã, các hệ thống AI dựa vào các phương pháp huấn luyện xác suất có thể bị phá vỡ thông qua kỹ thuật prompt sáng tạo.

Khám phá này nhấn mạnh nhu cầu về những thay đổi cơ bản trong cách các hệ thống AI được thiết kế và triển khai, đặc biệt trong môi trường doanh nghiệp nơi bảo mật dữ liệu là tối quan trọng. Khi khả năng AI tiếp tục mở rộng và tích hợp vào các hệ thống quan trọng, việc giải quyết những hạn chế bảo mật kiến trúc này trở nên ngày càng cấp bách.

Tham khảo: Weaponizing image scaling against production Al systems