Các Tác Nhân AI Thất Bại Thảm Hại Trong Công Việc Tự Do, Chỉ Kiếm Được 1.810 Đô la Mỹ Trong Bài Kiểm Tra Chuẩn

Nhóm biên tập BigGo
Các Tác Nhân AI Thất Bại Thảm Hại Trong Công Việc Tự Do, Chỉ Kiếm Được 1.810 Đô la Mỹ Trong Bài Kiểm Tra Chuẩn

Trong bối cảnh những suy đoán về việc trí tuệ nhân tạo thay thế người lao động đang lên đến đỉnh điểm, một chuẩn đánh giá mới đưa ra một lời cảnh tỉnh thực tế. Chỉ số Lao động Từ xa, được phát triển bởi Scale AI và Trung tâm An toàn AI, tiết lộ rằng ngay cả những tác nhân AI tiên tiến nhất cũng vật lộn một cách đáng kể với những nhiệm vụ phức tạp, nhiều bước vốn định nghĩa công việc tự do hiện đại, thách thức những dự đoán lạc quan về việc tự động hóa lực lượng lao động sắp xảy ra.

Chỉ số Lao động Từ xa Đưa AI Vào Thử Thách

Các nhà nghiên cứu đã tạo ra một chuẩn đánh giá toàn diện bằng cách tạo ra các nhiệm vụ tự do trong thế giới thực thông qua những người lao động đã được xác minh trên Upwork, trải rộng qua các lĩnh vực thiết kế đồ họa, chỉnh sửa video, phát triển trò chơi và công việc hành chính như thu thập dữ liệu. Mỗi nhiệm vụ bao gồm một mô tả công việc, các tệp tin cần thiết và một ví dụ về công việc đã được con người hoàn thành. Phương pháp luận này cung cấp một mô phỏng thực tế về nền kinh tế tự do, kiểm tra khả năng của AI trong việc xử lý công việc có giá trị kinh tế vượt ra ngoài các nhiệm vụ mã hóa hoặc lập luận đơn giản.

Các Loại Hạng Mục Công Việc Được Kiểm Tra: Thiết kế sản phẩm, thiết kế đồ họa, phát triển game, sản xuất audio/video, vận hành, marketing, phân tích dữ liệu, nghiên cứu, viết lách và công việc hành chính

Hiệu Suất Kém Xa So Với Kỳ Vọng

Kết quả cực kỳ kém trên tất cả các hệ thống AI được thử nghiệm. Ngay cả tác nhân AI có năng lực nhất, Manus từ công ty khởi nghiệp Trung Quốc cùng tên, cũng chỉ có thể hoàn thành 2,5-3% khối lượng công việc có sẵn. Về mặt tài chính, AI hoạt động tốt nhất chỉ kiếm được 1.810 đô la Mỹ trên tổng số 143.991 đô la Mỹ tiềm năng. Theo sau Manus trong bảng xếp hạng là Grok từ xAI, Claude từ Anthropic, ChatGPT từ OpenAI và Gemini từ Google, tất cả đều cho thấy những hạn chế tương tự trong việc tự động hóa công việc thực tế.

Bảng xếp hạng hiệu suất của các AI Agent trên Remote Labor Index:

  1. Manus (startup Trung Quốc) - Đứng đầu bảng xếp hạng
  2. Grok (xAI)
  3. Claude (Anthropic)
  4. ChatGPT (OpenAI)
  5. Gemini (Google)

Lý Do AI Vật Lộn Với Các Nhiệm Vụ Thực Tế

Theo Dan Hendrycks, giám đốc CAIS, những hạn chế cơ bản bắt nguồn từ việc AI không có khả năng sử dụng hiệu quả nhiều công cụ và thực hiện các nhiệm vụ phức tạp, nhiều bước. Ông giải thích: Chúng không có bộ nhớ dài hạn và không thể học hỏi liên tục từ kinh nghiệm. Chúng không thể tiếp thu các kỹ năng trong công việc như con người. Trong khi các mô hình AI đã có những bước tiến đáng kể trong việc viết mã, toán học và lập luận logic, những khả năng này không chuyển hóa tốt sang các yêu cầu năng động của công việc tự do, vốn đòi hỏi sự sáng tạo, tích hợp công cụ và giải quyết vấn đề thích ứng.

Thách Thức Những Dự Đoán Tự Động Hóa Quá Lạc Quan

Những phát hiện này tạo nên một sự tương phản rõ rệt với các chuẩn đánh giá khác, chẳng hạn như GDPval của OpenAI, vốn cho rằng các mô hình AI tiên phong đang tiến gần đến khả năng của con người trên 220 nhiệm vụ văn phòng. Chỉ số Lao động Từ xa đưa ra một góc nhìn thực tế hơn, gợi ý rằng trong khi AI xuất sắc trong các lĩnh vực cụ thể, thì việc thay thế toàn bộ công việc vẫn còn là tương lai xa. Điều này thách thức các dự đoán gần đây, bao gồm gợi ý của CEO Anthropic Dario Amodei rằng 90% công việc viết mã sẽ được tự động hóa trong vòng vài tháng.

Tác Động Thực Tế Đến Xu Hướng Việc Làm

Bất chấp những hạn chế hiện tại của AI, công nghệ này đã và đang ảnh hưởng đến các quyết định tuyển dụng. Amazon gần đây đã thông báo cắt giảm 14.000 việc làm, một phần là do tiềm năng chuyển đổi của AI generative. Beth Galetti, Phó chủ tịch cấp cao của Amazon, gọi thế hệ AI này là công nghệ chuyển đổi nhất mà chúng ta từng thấy kể từ Internet. Tuy nhiên, nếu Chỉ số Lao động Từ xa là chính xác, thì AI sẽ không trực tiếp lấp đầy các vị trí bị bỏ trống này trong tương lai gần.

Hiệu suất Tài chính: AI hoạt động tốt nhất kiếm được 1.810 USD trong tổng số tiềm năng 143.991 USD (tỷ lệ thành công khoảng 1,3%)

Một Tương Lai Phức Tạp Hơn Cho AI và Công Việc

Nghiên cứu cho thấy vai trò trong ngắn hạn của AI có thể là một công cụ nâng cao năng suất hơn là một người lao động thay thế. Bing Liu, giám đốc nghiên cứu tại Scale AI, lưu ý rằng nhiều lao động tự do cũng có khả năng sử dụng AI như một công cụ theo cách làm khuếch đại năng suất của họ. Điều này phù hợp với các mô hình lịch sử, nơi các công nghệ mới thường bổ trợ cho khả năng của con người hơn là ngay lập tức thay thế họ. Chuẩn đánh giá này cung cấp một lời cảnh tỉnh thực tế quý giá, chống lại cả nỗi sợ hãi thay thế việc làm theo kiểu dystopia và những dự đoán về lộ trình tự động hóa quá lạc quan, gợi ý rằng sự hợp tác giữa con người và AI đại diện cho con đường phía trước khả thi nhất trong nền kinh tế tự do.