Công ty An ninh AI Tăng Khả năng Phát hiện Lỗ hổng 60% Nhờ "Hợp kim Mô hình" Chuyển đổi Giữa Các LLM Khác nhau

Nhóm Cộng đồng BigGo
Công ty An ninh AI Tăng Khả năng Phát hiện Lỗ hổng 60% Nhờ "Hợp kim Mô hình" Chuyển đổi Giữa Các LLM Khác nhau

XBOW , một công ty kiểm thử xâm nhập tự động, đã phát triển một phương pháp mới gọi là hợp kim mô hình giúp cải thiện đáng kể tỷ lệ thành công trong phát hiện lỗ hổng của tác nhân AI từ 25% lên hơn 50%. Kỹ thuật này hoạt động bằng cách chuyển đổi giữa các mô hình ngôn ngữ lớn khác nhau trong cùng một chuỗi hội thoại, cho phép mỗi mô hình đóng góp những thế mạnh độc đáo của mình vào các thử thách an ninh mạng phức tạp.

Cải thiện hiệu suất theo từng kết hợp mô hình:

  • Claude Sonnet + Google Gemini: Mức cải thiện hiệu suất cao nhất (hệ số tương quan thấp nhất: 0.43)
  • Các kết hợp cùng nhà cung cấp (ví dụ: Sonnet 3.7 + Sonnet 4.0): Cải thiện tối thiểu
  • Tiến trình tỷ lệ thành công: 25% → 40% → 50%+ trong các tác vụ phát hiện lỗ hổng bảo mật
Biểu đồ minh họa sự cải thiện tỷ lệ thành công phát hiện lỗ hổng bảo mật tại XBOW sử dụng hợp kim mô hình
Biểu đồ minh họa sự cải thiện tỷ lệ thành công phát hiện lỗ hổng bảo mật tại XBOW sử dụng hợp kim mô hình

Đổi mới Cốt lõi Đằng sau Hợp kim Mô hình

Phương pháp hợp kim hoạt động bằng cách duy trì một cuộc trò chuyện duy nhất trong khi ngẫu nhiên xen kẽ giữa các mô hình AI khác nhau như Claude Sonnet của Anthropic và Gemini của Google . Mỗi mô hình tin rằng chính nó đã tạo ra tất cả các phản hồi trước đó trong cuộc hội thoại, tạo ra sự pha trộn liền mạch giữa các khả năng AI khác nhau. Kỹ thuật này tỏ ra đặc biệt hiệu quả cho các nhiệm vụ đòi hỏi nhiều hiểu biết đột phá hơn là tiến bộ gia tăng ổn định.

Cộng đồng đã thể hiện sự quan tâm mạnh mẽ đối với phương pháp này, với nhiều nhà phát triển đã thử nghiệm các kỹ thuật tương tự trong quy trình làm việc của họ. Một người dùng lưu ý rằng họ thường xuyên chuyển đổi giữa các mô hình trong các phiên động não, trong khi một người khác đề cập đến việc sử dụng phương pháp này trong môi trường lập trình như Cursor để có được những góc nhìn khác nhau về các vấn đề phức tạp.

Hợp kim mô hình: Một kỹ thuật trong đó các mô hình AI khác nhau lần lượt phản hồi trong cùng một chuỗi hội thoại, mỗi mô hình không biết về sự đóng góp của mô hình khác.

Các Cân Nhắc Khi Triển Khai:

  • Tăng gấp đôi chi phí lưu trữ prompt (lưu trữ riêng biệt cho mỗi model)
  • Hoạt động tốt nhất với các model từ những nhà cung cấp khác nhau
  • Cả chiến lược chuyển đổi ngẫu nhiên và luân phiên đều hiệu quả
  • Duy trì một luồng hội thoại duy nhất xuyên suốt quá trình chuyển đổi giữa các model
So sánh Gemini 25 pro và Sonnet 40 trong các thử thách khác nhau để chứng minh hiệu suất mô hình
So sánh Gemini 25 pro và Sonnet 40 trong các thử thách khác nhau để chứng minh hiệu suất mô hình

Cải thiện Hiệu suất Qua Các Kết hợp Mô hình Khác nhau

Thử nghiệm của XBOW cho thấy rằng sự đa dạng mô hình là chìa khóa thành công. Các kết hợp hiệu quả nhất ghép nối các mô hình từ những nhà cung cấp khác nhau, chẳng hạn như Claude Sonnet với Google Gemini , cho thấy mức tương quan thấp nhất trong các phương pháp giải quyết vấn đề. Thú vị là việc kết hợp các mô hình từ cùng một nhà cung cấp mang lại cải thiện nhỏ hơn nhiều, cho thấy rằng sự khác biệt trong huấn luyện giữa các công ty tạo ra những thế mạnh bổ sung hơn.

Kỹ thuật này liên tục vượt trội hơn cả các mô hình riêng lẻ và các phương pháp thử nghiệm song song đơn giản. Ngay cả việc chạy nhiều tác nhân riêng biệt với các mô hình khác nhau cũng không thể sánh bằng hiệu suất của một tác nhân hợp kim duy nhất, làm nổi bật giá trị của ngữ cảnh chia sẻ và giải quyết vấn đề hợp tác.

Khi nào Hợp kim Mô hình Hoạt động Tốt nhất

Thảo luận cộng đồng cho thấy rằng phương pháp này tỏa sáng trong các tình huống cụ thể. Nó hiệu quả nhất cho các nhiệm vụ lặp đi lặp lại đòi hỏi hàng chục lần gọi mô hình, nơi nhiều hiểu biết sáng tạo phải kết hợp để giải quyết các vấn đề phức tạp. Kiểm thử an ninh mạng, thiết kế kiến trúc và các phiên gỡ lỗi phức tạp đại diện cho các trường hợp sử dụng lý tưởng.

Tuy nhiên, kỹ thuật này có những hạn chế. Các nhiệm vụ đòi hỏi tiến bộ ổn định hơn là những khoảnh khắc đột phá có thể không được hưởng lợi đáng kể. Ngoài ra, phương pháp này làm tăng gấp đôi chi phí lưu trữ prompt vì mỗi nhà cung cấp mô hình cần lưu trữ ngữ cảnh riêng biệt, khiến nó kém kinh tế hơn cho các ứng dụng sử dụng nhiều prompt.

Các Trường Hợp Sử Dụng Tối Ưu cho Model Alloys:

  • Các tác vụ yêu cầu 10+ lần gọi mô hình lặp lại
  • Các vấn đề cần nhiều đột phá sáng tạo
  • Các thách thức dựa trên tìm kiếm với nhiều ngõ cụt
  • Các tình huống mà các mô hình khác nhau xuất sắc ở các tác vụ phụ khác nhau
Biểu đồ cho thấy tỷ lệ hợp kim thay đổi tác động như thế nào đến tỷ lệ thành công trong thử nghiệm mô hình AI
Biểu đồ cho thấy tỷ lệ hợp kim thay đổi tác động như thế nào đến tỷ lệ thành công trong thử nghiệm mô hình AI

Ý nghĩa Rộng lớn hơn cho Phát triển AI

Sự phát triển này phản ánh xu hướng ngày càng tăng hướng tới các phương pháp AI lai kết hợp thế mạnh của các mô hình khác nhau thay vì dựa vào một mô hình tốt nhất duy nhất. Thành công của hợp kim mô hình cho thấy rằng sự đa dạng trong các hệ thống AI , giống như trong các nhóm con người, có thể tạo ra kết quả vượt trội hơn so với sự xuất sắc cá nhân.

Chứng minh rằng sự đa dạng tư duy là điều tốt. Một quan sát gây tranh cãi trong nước Mỹ năm 2025 ;) Nghiêm túc mà nói, khi tôi bắt tay vào một dự án, tôi thường yêu cầu Gemini 2.5 thiết kế kiến trúc và thực hiện lần đầu, sau đó Claude để thực hiện lặp lại.

Sự đơn giản của kỹ thuật này làm cho nó có thể tiếp cận được với các nhà phát triển làm việc với các API AI hiện có, chỉ yêu cầu quản lý hội thoại cơ bản thay vì các hệ thống điều phối phức tạp. Khi các mô hình AI tiếp tục chuyên môn hóa trong các lĩnh vực khác nhau, hợp kim mô hình có thể trở thành một kỹ thuật tiêu chuẩn để tối đa hóa hiệu suất trên các lĩnh vực vấn đề đa dạng.

Tham khảo: Alloy