Công cụ Top Secret đối mặt với những câu hỏi về hiệu suất và độ chính xác từ cộng đồng nhà phát triển

Nhóm Cộng đồng BigGo
Công cụ Top Secret đối mặt với những câu hỏi về hiệu suất và độ chính xác từ cộng đồng nhà phát triển

Một công cụ Ruby mới có tên Top Secret đã xuất hiện để giúp các nhà phát triển lọc thông tin nhạy cảm khỏi văn bản trước khi gửi đến chatbot và các mô hình ngôn ngữ lớn. Công cụ này kết hợp biểu thức chính quy với nhận dạng thực thể có tên (NER) để xác định và loại bỏ dữ liệu cá nhân như số thẻ tín dụng, email và các chi tiết nhạy cảm khác khỏi văn bản tự do.

Kiến trúc Kỹ thuật:

  • Sử dụng các mô hình MITIE ( MIT Information Extraction ) để Nhận dạng Thực thể Có tên
  • Kết hợp các mẫu regex với các thực thể NER để lọc dữ liệu
  • Cung cấp chức năng ánh xạ để khôi phục các giá trị đã được lọc
  • Nhẹ hơn so với các giải pháp dựa trên LLM (word embeddings + bộ phân loại SVM )

Mối quan ngại về hiệu suất chiếm ưu thế trong thảo luận

Cộng đồng nhà phát triển đã đặt ra những câu hỏi quan trọng về hiệu suất thực tế của công cụ. Người dùng đặc biệt quan tâm đến thời gian suy luận, nhất là trong môi trường sản xuất xử lý các cuộc hội thoại dài. Công cụ sử dụng các mô hình MITIE cho NER, nhẹ hơn so với các mô hình ngôn ngữ đầy đủ nhưng vẫn yêu cầu tài nguyên tính toán cho mỗi thao tác lọc.

MITIE ( MIT Information Extraction ) sử dụng word embeddings với bộ phân loại SVM thay vì mạng neural nặng, giúp nó nhanh hơn nhưng có thể kém chính xác hơn so với các phương pháp hiện đại.

Các Hạn Chế Chính Được Xác Định:

  • Độ chính xác của NER thay đổi đáng kể giữa các lĩnh vực khác nhau
  • Những lo ngại về hiệu suất trong môi trường sản xuất có khối lượng lớn
  • Tài liệu đánh giá MITIE được cập nhật lần cuối cách đây khoảng 10 năm
  • Không đảm bảo phát hiện 100% dữ liệu nhạy cảm

Những hạn chế về độ chính xác gây ra tranh luận

Các thành viên cộng đồng đã nhấn mạnh rằng các mô hình NER thường gặp khó khăn với độ chính xác trên các lĩnh vực khác nhau. Trang đánh giá MITIE cơ bản đã không được cập nhật trong gần một thập kỷ, đặt ra câu hỏi về hiệu quả của mô hình với các loại và định dạng dữ liệu hiện tại. Một nhà phát triển đã nhấn mạnh một điểm quan trọng về khả năng của công cụ:

Điều này rất tuyệt nhưng nó không ngăn chặn; nó giảm khả năng xảy ra. NER không hoạt động 100% hiệu quả. Nó rất tốt trong nhiều trường hợp, nhưng hãy sử dụng một cách thận trọng!

Các giải pháp thay thế và trường hợp sử dụng

Cuộc thảo luận đã tiết lộ nhiều phương pháp thay thế và ứng dụng tiềm năng khác nhau. Một số nhà phát triển đã xây dựng các công cụ tương tự bằng các ngôn ngữ lập trình khác, trong khi những người khác đã đề xuất các giải pháp cấp cơ sở dữ liệu như phần mở rộng ẩn danh hóa PostgreSQL . Thú vị là, các cơ quan chính phủ như US Marshalls đã bày tỏ sự quan tâm đến công nghệ tự động che giấu thông tin cho quy trình làm việc của họ.

Cộng đồng cũng đã khám phá các ứng dụng tham vọng hơn, chẳng hạn như bộ lọc chia sẻ màn hình thời gian thực có thể ngăn chặn việc rò rỉ dữ liệu tình cờ trong các cuộc gọi video hoặc phát trực tiếp, mặc dù những thách thức kỹ thuật cho các triển khai như vậy vẫn còn đáng kể.

Cuộc trò chuyện phản ánh nhu cầu rộng lớn hơn của ngành đối với các công cụ bảo vệ dữ liệu tốt hơn khi việc tích hợp AI và chatbot trở nên phổ biến hơn. Trong khi Top Secret cung cấp một giải pháp thực tế, phản hồi từ cộng đồng cho thấy rằng các tổ chức nên xem nó như một lớp trong chiến lược bảo vệ dữ liệu toàn diện thay vì một giải pháp hoàn chỉnh.

Tham khảo: Introducing Top Secret