Nghiên cứu phát hiện các bộ đánh giá AI Agent có lỗi nghiêm trọng, sai lệch hiệu suất lên tới 100%

Nhóm Cộng đồng BigGo
Nghiên cứu phát hiện các bộ đánh giá AI Agent có lỗi nghiêm trọng, sai lệch hiệu suất lên tới 100%

Các bộ đánh giá AI agent, những công cụ được sử dụng để đo lường mức độ hoạt động tốt của các hệ thống trí tuệ nhân tạo trong các tác vụ thực tế, đang bị hỏng một cách căn bản theo một nghiên cứu mới. Những hệ thống đánh giá này được cho là sẽ hướng dẫn cả nghiên cứu và phát triển công nghiệp khi AI chuyển từ các demo trong phòng thí nghiệm sang các ứng dụng quan trọng. Tuy nhiên, một nghiên cứu toàn diện đã tiết lộ những vấn đề nghiêm trọng khiến các bộ đánh giá hiện tại không đáng tin cậy để đo lường khả năng của AI.

Các vấn đề này vượt xa những sai lầm đơn giản. Các nhà nghiên cứu phát hiện rằng nhiều bộ đánh giá phổ biến chứa những lỗi cơ bản mà bất kỳ người đánh giá nào cũng có thể nhận ra, nhưng lại bị bỏ qua bởi các hệ thống tự động.

Thống kê về Sự thất bại của Benchmark:

  • 8 trong số 10 benchmark phổ biến chứa các vấn đề nghiêm trọng
  • Ước lượng sai lệch lên đến 100% về khả năng của agent
  • 7 trong số 10 benchmark chứa các lối tắt hoặc nhiệm vụ bất khả thi
  • 7 trong số 10 benchmark thất bại trong việc xác thực kết quả
  • Các agent không làm gì cả vẫn đạt 38% điểm trong một số nhiệm vụ hàng không

Các lỗi toán học không được phát hiện

Một trong những ví dụ nổi bật nhất đến từ WebArena, một bộ đánh giá được sử dụng bởi các công ty lớn bao gồm OpenAI. Khi một AI agent được yêu cầu tính toán thời lượng của một tuyến đường và trả lời 45 + 8 phút, hệ thống đã đánh dấu là đúng, mặc dù câu trả lời thực tế phải là 63 phút. Loại lỗi số học cơ bản này làm nổi bật cách các hệ thống đánh giá tự động có thể thất bại ở những tác vụ có vẻ đơn giản.

Vấn đề mở rộng ra ngoài các trường hợp đơn lẻ. Trong số 10 bộ đánh giá AI agent phổ biến được kiểm tra, các nhà nghiên cứu đã tìm thấy vấn đề nghiêm trọng ở 8 trong số đó, dẫn đến sai lệch ước tính hiệu suất lên tới 100%. Những con số này tiết lộ một vấn đề có hệ thống thay vì các sự cố riêng lẻ.

Các Benchmark Bị Ảnh Hưởng Chính:

  • WebArena (được sử dụng bởi OpenAI và các công ty khác)
  • SWE-Bench và SWE-Bench Verified
  • OSWorld
  • t-bench
  • Nhiều benchmark khác với những thay đổi thứ hạng ảnh hưởng đến 24-41% vị trí trên bảng xếp hạng

Vấn đề cốt lõi với việc AI đánh giá AI

Một nguồn chính của những thất bại này xuất phát từ việc sử dụng các mô hình ngôn ngữ lớn (LLM) để đánh giá đầu ra của các LLM khác. Cách tiếp cận này tạo ra một vấn đề xác thực cơ bản vì cả hệ thống được kiểm tra và hệ thống thực hiện kiểm tra đều chia sẻ cùng những điểm mù kiến trúc.

Sử dụng một thẩm phán có cùng kiến trúc với thứ đang được đánh giá sẽ tối đa hóa xác suất thất bại cơ bản của bộ đánh giá để có hiệu lực do thẩm phán có chính xác những điểm mù giống như thứ đang được kiểm tra.

Cộng đồng nghiên cứu đã rút ra những điểm tương đồng với các lĩnh vực khác nơi bài học này được học một cách khó khăn. Trong phát triển nén âm thanh, các kỹ sư phát hiện rằng bất kỳ chỉ số tự động nào cũng có thể bị lợi dụng, dẫn đến các hiện tượng bất thường khi các hệ thống được tối ưu hóa trực tiếp cho những chỉ số đó. Giải pháp luôn yêu cầu đánh giá của con người cho kết quả cuối cùng, bất chấp chi phí và độ phức tạp gia tăng.

Các Agent không làm gì ghi điểm cao đáng ngạc nhiên

Một phát hiện đáng báo động khác liên quan đến các agent không làm gì - những hệ thống không thực hiện công việc thực tế nào. Trong một số bộ đánh giá, những agent tầm thường này đã ghi điểm đúng trên 38% tác vụ, mặc dù chúng không thể hiện sự hiểu biết nào về các vấn đề mà chúng được cho là phải giải quyết. Điều này cho thấy nhiều tác vụ đánh giá hoặc được thiết kế kém hoặc chứa các lối tắt cho phép các hệ thống có vẻ thành công mà không thực sự thực hiện công việc dự định.

Môi trường kiểm tra lỗi thời và dễ vỡ

Nghiên cứu cũng tiết lộ các vấn đề với chính môi trường đánh giá. Một số bài kiểm tra dựa vào các trang web lỗi thời hoặc mô phỏng dễ vỡ bị hỏng khi điều kiện bên ngoài thay đổi. Ví dụ, hệ thống đánh giá của OSWorld một phần phụ thuộc vào các trang web lỗi thời, gây ra thất bại của agent khi các lớp CSS hoặc các yếu tố web khác được cập nhật. Điều này tạo ra một mục tiêu di động khiến việc đánh giá nhất quán trở nên không thể.

Các Vấn Đề Chính Được Xác Định:

  • Các hệ thống LLM-as-Judge mắc lỗi số học cơ bản (45+8≠63)
  • Môi trường mô phỏng dễ vỡ bị hỏng do các thay đổi bên ngoài
  • Các phụ thuộc website lỗi thời gây ra lỗi đánh giá
  • Vấn đề tính hợp lệ của tác vụ với các bài kiểm tra không thể giải được hoặc dễ bị lách
  • Các vấn đề về độ chính xác đánh giá với sai lệch hiệu suất tuyệt đối 1.6-5.2%

Phản ứng của ngành và giải pháp

Nhóm nghiên cứu đã phát triển AI Agent Benchmark Checklist (ABC), một khung được thiết kế để giúp các nhà phát triển xác định và khắc phục những vấn đề này. Danh sách kiểm tra tập trung vào ba lĩnh vực chính: tính hợp lệ của tác vụ (liệu một tác vụ có thực sự kiểm tra khả năng dự định hay không), tính hợp lệ của kết quả (liệu việc đánh giá có xác định đúng thành công hay không), và hướng dẫn báo cáo phù hợp.

Tuy nhiên, thách thức cơ bản vẫn phức tạp. Chính những phẩm chất khiến các hệ thống AI trở nên mạnh mẽ - khả năng xử lý các đầu vào mờ nhạt và tạo ra các đầu ra đa dạng - cũng khiến chúng cực kỳ khó đánh giá một cách có hệ thống. Các cách tiếp cận đánh giá truyền thống hoạt động tốt cho các hệ thống xác định hơn lại gặp khó khăn với bản chất tinh tế, phụ thuộc ngữ cảnh của các tác vụ AI agent.

Các phát hiện cho thấy ngành AI có thể cần phải suy nghĩ lại một cách căn bản về cách đo lường tiến bộ, có thể yêu cầu các quy trình đánh giá của con người đắt đỏ hơn hoặc các cách tiếp cận xác thực hoàn toàn mới. Cho đến khi những vấn đề này được giải quyết, các tuyên bố về khả năng của AI agent nên được xem xét với sự hoài nghi đáng kể.

Tham khảo: Al Agent Benchmarks are Broken