Cộng đồng trí tuệ nhân tạo đang vật lộn với những lo ngại ngày càng tăng về độ tin cậy của các tiêu chuẩn đánh giá AI, khi các nhà nghiên cứu nêu bật những vấn đề về ô nhiễm dữ liệu và chi phí tính toán không được tiết lộ có thể đang đánh lừa công chúng về khả năng thực sự của AI.
Ô Nhiễm Dữ Liệu Huấn Luyện Làm Suy Yếu Tính Hợp Lệ Của Tiêu Chuẩn Đánh Giá
Một vấn đề đáng kể đang ảnh hưởng đến các đánh giá AI hiện tại là sự ô nhiễm của bộ dữ liệu huấn luyện với các bài toán tiêu chuẩn. Các nhà nghiên cứu chỉ ra rằng nhiều thành tựu AI ấn tượng có thể trở nên kém đáng chú ý hơn nếu dữ liệu huấn luyện được minh bạch. Vấn đề này xuất phát từ việc các mô hình ngôn ngữ lớn được huấn luyện trên lượng dữ liệu khổng lồ từ internet, có khả năng bao gồm các biến thể của các bài toán tiêu chuẩn và lời giải của chúng.
Vấn đề ô nhiễm này đã trở nên phổ biến đến mức một số công ty bị cáo buộc đã có được lợi thế không công bằng thông qua các thực hành đáng ngờ. Cộng đồng đã ghi nhận các trường hợp mà các công ty AI đã có được quyền truy cập độc quyền vào các bài toán tiêu chuẩn trước khi đánh giá chính thức, làm dấy lên những câu hỏi nghiêm túc về tính toàn vẹn của các kết quả được báo cáo.
Ô nhiễm dữ liệu: Khi bộ dữ liệu huấn luyện vô tình hoặc cố ý bao gồm các ví dụ tương tự như các bài toán kiểm tra, khiến hiệu suất AI có vẻ tốt hơn thực tế.
Nguồn Nhiễm Dữ Liệu:
- Bộ dữ liệu CommonCrawl chứa các bài toán chuẩn
- Dữ liệu huấn luyện tổng hợp được chưng cất từ các mô hình đã tiếp xúc với các bài kiểm tra chuẩn
- Quyền truy cập độc quyền trước vào các bài toán đánh giá
- Các biến thể và hoán vị của các câu hỏi chuẩn hiện có
Chi Phí Tính Toán Ẩn Làm Méo Mó Tính Khả Thi Trong Thực Tế
Ngoài các vấn đề về dữ liệu, cộng đồng AI đang kêu gọi minh bạch hơn trong việc báo cáo chi phí thực sự của các thành tựu AI. Các thông báo hiện tại thường nhấn mạnh kết quả thành công trong khi bỏ qua thông tin quan trọng về chi phí tính toán và tỷ lệ thất bại.
Ví dụ, nếu một hệ thống AI tốn 1.000 đô la Mỹ cho tài nguyên tính toán mỗi lần thử nhưng chỉ thành công 20% thời gian, chi phí thực tế cho mỗi giải pháp thành công tăng vọt lên 5.000 đô la Mỹ. Sự khác biệt đáng kể này trong kinh tế thế giới thực hiếm khi được tiết lộ trong các thông báo công khai, tạo ra những kỳ vọng không thực tế về chi phí triển khai AI.
Tình hình trở nên phức tạp hơn khi xem xét sự giám sát của con người cần thiết trong quá trình vận hành AI. Ngay cả khi các chuyên gia không can thiệp trực tiếp, sự hiện diện và giám sát của họ đại diện cho chi phí bổ sung cần được tính vào các chỉ số hiệu suất thực sự.
Ví dụ Tính toán Chi phí:
- Chi phí tính toán hệ thống AI mỗi lần thử: $1,000 USD
- Tỷ lệ thành công: 20%
- Chi phí thực tế cho mỗi giải pháp thành công: $5,000 USD
- Các chi phí ẩn bổ sung: Giám sát con người, xác minh, lỗi tương quan
Chơi Trò Tiêu Chuẩn Đánh Giá Đe Dọa Tiến Bộ Khoa Học
Áp lực để đạt được điểm số tiêu chuẩn cao đã tạo ra một môi trường mà việc tối ưu hóa cho các bài kiểm tra cụ thể có thể đi ngược lại khả năng tổng quát. Hiện tượng này, liên quan đến Định luật Goodhart, cho thấy rằng khi một thước đo trở thành mục tiêu, nó không còn là một thước đo tốt nữa.
Vấn đề với các tiêu chuẩn đánh giá là chúng thực sự hữu ích cho các nhà nghiên cứu trung thực, nhưng cực kỳ độc hại nếu được sử dụng cho marketing, danh tiếng, v.v.
Thách thức đặc biệt nghiêm trọng vì hầu hết các tiêu chuẩn đánh giá công khai có khả năng đã được bao gồm trong bộ dữ liệu huấn luyện thông qua thu thập dữ liệu web, khiến việc tạo ra các đánh giá thực sự không bị ô nhiễm gần như không thể. Điều này đã khiến một số nhà nghiên cứu ủng hộ các tiêu chuẩn đánh giá riêng tư, không được công bố, mặc dù chúng có những hạn chế và thiên kiến riêng.
Các Giải Pháp Đề Xuất:
- Đánh giá benchmark riêng tư, không công bố
- Bắt buộc tiết lộ chi phí tính toán và tỷ lệ thất bại
- Giao thức báo cáo chuẩn hóa cho các thành tựu AI
- Tập trung vào các chỉ số hiệu suất thực tế thay vì benchmark hạn hẹp
Hướng Tới Các Tiêu Chuẩn Đánh Giá Minh Bạch
Khi công nghệ AI trưởng thành, cộng đồng nhận ra nhu cầu về các giao thức đánh giá được tiêu chuẩn hóa yêu cầu tiết lộ đầy đủ phương pháp và việc sử dụng tài nguyên. Sự thay đổi này phản ánh sự phát triển được thấy trong các công nghệ khác, nơi tập trung ban đầu vào các thành tựu đột phá cuối cùng nhường chỗ cho các cân nhắc thực tế về chi phí, hiệu quả và độ tin cậy.
Con đường phía trước có khả năng bao gồm sự kết hợp của các phương pháp: đánh giá riêng tư được thiết kế cẩn thận, yêu cầu báo cáo được tiêu chuẩn hóa cho chi phí tính toán, và nhấn mạnh hơn vào hiệu suất thế giới thực thay vì tối ưu hóa tiêu chuẩn đánh giá hẹp. Chỉ thông qua những cải cách toàn diện như vậy, cộng đồng AI mới có thể khôi phục lại niềm tin vào các tuyên bố về hiệu suất và cho phép ra quyết định có thông tin về việc triển khai AI.
Tham khảo: Bài đăng Mastodon