Thí nghiệm bảo mật DNA tiết lộ các vấn đề về lòng tin và hạn chế kỹ thuật trong bảo vệ dữ liệu di truyền

Nhóm Cộng đồng BigGo
Thí nghiệm bảo mật DNA tiết lộ các vấn đề về lòng tin và hạn chế kỹ thuật trong bảo vệ dữ liệu di truyền

Thí nghiệm gần đây của Monadic DNA tại hội nghị ethDenver đã khơi mào những cuộc thảo luận quan trọng về các thách thức thực tế mà quyền riêng tư dữ liệu di truyền đang phải đối mặt. Trong khi công ty đã trình diễn công nghệ tính toán đa bên (MPC) để phân tích DNA, phản hồi từ cộng đồng cho thấy những khoảng trống đáng kể giữa các lời hứa về quyền riêng tư và việc triển khai thực tế.

Thí nghiệm đã thu thập mẫu nước bọt từ những người tham dự hội nghị và sử dụng lưu trữ mã hóa được hỗ trợ bởi công nghệ MPC để phân tích dữ liệu di truyền mà không làm lộ thông tin thô. Người tham gia có thể truy cập kết quả của họ thông qua một ứng dụng web bằng cách sử dụng ID bộ kit duy nhất và mã PIN cá nhân.

Thông số kỹ thuật:

  • Mảng Genotyping: Global Screening Array (~500k markers)
  • Tùy chọn thay thế: Global Diversity Array (~1.5m markers)
  • Giải trình tự toàn bộ bộ gen: ~3-11 triệu markers (không sử dụng do chi phí cao)
  • Thời gian xử lý: 2 tháng (thử nghiệm), 2-3 tuần (quy mô sản xuất)
  • Cụm MPC: Thiết lập 3 nút chỉ yêu cầu 1 nút trung thực để đảm bảo bảo mật

Vấn đề tin cậy phòng thí nghiệm vẫn chưa được giải quyết

Bất chấp những tuyên bố về việc tăng cường quyền riêng tư, lỗ hổng quan trọng nhất vẫn không thay đổi. Các phòng thí nghiệm xử lý mẫu DNA vẫn có quyền truy cập hoàn toàn vào dữ liệu di truyền chưa được mã hóa. Điều này tạo ra một yêu cầu tin cậy cơ bản mà công nghệ mã hóa không thể loại bỏ. Công ty thừa nhận hạn chế này, lưu ý rằng một mức độ tin cậy giả định nào đó đối với phòng thí nghiệm là không thể tránh khỏi và các quy định yêu cầu phòng thí nghiệm phải lưu giữ mẫu vật lý trong những khoảng thời gian cụ thể.

Điều này đại diện cho một khoảng trống đáng kể trong chuỗi bảo vệ quyền riêng tư. Ngay cả với việc mã hóa tinh vi cho lưu trữ và phân tích, giai đoạn xử lý ban đầu vẫn dễ bị tổn thương trước việc lạm dụng dữ liệu hoặc vi phạm tiềm ẩn.

Hạn chế về Quyền riêng tư:

  • Các phòng thí nghiệm vẫn giữ quyền truy cập không mã hóa vào các mẫu DNA thô
  • Tuân thủ pháp luật yêu cầu thời gian lưu giữ mẫu
  • Sự đồng ý có thông tin tạo ra các liên kết nhận dạng
  • Việc ẩn danh hiện tại ≠ ẩn danh thực sự
  • S3/lưu trữ đám mây vẫn được sử dụng trong chuỗi truyền dữ liệu

Ẩn danh hóa không đạt được tính ẩn danh thực sự

Các cuộc thảo luận trong cộng đồng đã làm nổi bật một mối quan tâm chính khác về sự khác biệt giữa dữ liệu được ẩn danh hóa và dữ liệu thực sự ẩn danh. Hệ thống hiện tại sử dụng ID bộ kit tuần tự kết hợp với mã PIN bốn chữ số, tạo ra các lỗ hổng bảo mật tiềm ẩn. Các nhà phê bình chỉ ra rằng kẻ tấn công có thể brute-force mã PIN nếu họ phát hiện ra các mẫu ID bộ kit.

Các yêu cầu pháp lý về sự đồng ý có thông tin cũng tạo ra các liên kết với danh tính thực, cung cấp một con đường khác cho việc de-anonymization tiềm ẩn. Trong khi công ty đề xuất các cải tiến trong tương lai sử dụng khóa mật mã và bằng chứng không kiến thức, những giải pháp này vẫn còn mang tính lý thuyết hiện tại.

Cân nhắc về Chi phí và Bảo mật:

  • Vận chuyển Mẫu: Dưới 50 USD qua UPS
  • Kiểm toán Bảo mật Bên ngoài: ~100.000 USD (hiện tại không đủ khả năng chi trả)
  • Bảo mật PIN: Mã 4 chữ số với ID bộ kit tuần tự (dễ bị tấn công brute force)
  • Lưu trữ Dữ liệu: Bộ nhớ cục bộ trình duyệt cho khóa người dùng (giai đoạn thử nghiệm)

Triển khai kỹ thuật đặt ra câu hỏi

Thiết lập thí nghiệm đã tiết lộ một số hạn chế thực tế. Việc truyền dữ liệu vẫn dựa vào các dịch vụ lưu trữ đám mây tiêu chuẩn như Amazon S3, mà các phòng thí nghiệm thường sử dụng để chia sẻ thông tin di truyền. Trong khi công ty hứa hẹn sẽ loại bỏ các trung gian như vậy trong sản xuất, việc triển khai hiện tại không hoàn toàn thực hiện được những lời hứa về quyền riêng tư.

Vậy... Đây chỉ là việc tải DNA của bạn lên S3 nhưng với các bước phụ thêm lần này?

Phản hồi của công ty nhấn mạnh cam kết của họ trong việc giữ dữ liệu được mã hóa mọi lúc và xây dựng cơ sở hạ tầng sẽ vẫn hoạt động ngay cả khi công ty thất bại. Tuy nhiên, giai đoạn thí nghiệm hiện tại cho thấy sự phụ thuộc đáng kể vào các phương pháp xử lý dữ liệu truyền thống.

Thách thức về chi phí và khả năng mở rộng

Các cuộc kiểm toán bảo mật bên ngoài, vốn sẽ cung cấp xác nhận quan trọng về các tuyên bố bảo mật, vẫn nằm ngoài tầm với do hạn chế về chi phí. Công ty ước tính các cuộc kiểm toán như vậy sẽ có chi phí khoảng 100.000 đô la Mỹ, khiến chúng không thể chi trả được cho hoạt động tự tài trợ của họ. Điều này tạo ra một khoảng trống tin cậy nơi người dùng phải dựa vào các đánh giá bảo mật nội bộ của công ty.

Thí nghiệm cũng tiết lộ các vấn đề về khả năng mở rộng, với việc xử lý mẫu mất hai tháng do kích thước lô không đủ. Môi trường sản xuất sẽ yêu cầu khối lượng nhất quán để đạt được thời gian xử lý được hứa hẹn từ hai đến ba tuần.

Lời hứa tương lai so với thực tế hiện tại

Trong khi Monadic DNA phác thảo các kế hoạch tham vọng cho mật mã phân tử và giải trình tự tại nhà để giải quyết các hạn chế hiện tại, những giải pháp này vẫn đang trong quá trình phát triển. Công ty đang làm việc để kết hợp mã hóa đồng cấu hoàn toàn (FHE) với công nghệ MPC và khám phá các quan hệ đối tác để bảo vệ dữ liệu ở cấp độ phân tử.

Thí nghiệm đã thành công chứng minh rằng công nghệ MPC có thể hoạt động cho phân tích di truyền, nhưng phản hồi từ cộng đồng cho thấy rằng những thách thức đáng kể vẫn còn trước khi phân tích DNA thực sự riêng tư trở thành hiện thực. Người dùng quan tâm đến quyền riêng tư di truyền có thể cần phải chờ đợi các triển khai trưởng thành hơn để giải quyết các yêu cầu tin cậy cơ bản trong chuỗi xử lý dữ liệu.

Tham khảo: Using MPC for Anonymous and Private DNA Analysis

Sự phức tạp của việc sử dụng MPC cho phân tích DNA riêng tư và tham vọng tương lai của công ty được đóng khung trong bài báo học thuật này
Sự phức tạp của việc sử dụng MPC cho phân tích DNA riêng tư và tham vọng tương lai của công ty được đóng khung trong bài báo học thuật này