ChatGPT Agent của OpenAI cho thấy tiềm năng nhưng gặp khó khăn về độ chính xác và độ tin cậy trong thử nghiệm toàn diện

Nhóm biên tập BigGo

ChatGPT Agent của OpenAI cho thấy tiềm năng nhưng gặp khó khăn về độ chính xác và độ tin cậy trong thử nghiệm toàn diện

ChatGPT Agent mới được phát hành của OpenAI đại diện cho một bước tiến đầy tham vọng trong tự động hóa AI, kết hợp khả năng duyệt web với thực thi tác vụ. Tuy nhiên, thử nghiệm thực tế mở rộng cho thấy một công cụ vẫn đang tìm kiếm vị thế của mình, mang lại kết quả không nhất quán từ ấn tượng đến có vấn đề.

Cấu trúc giá tạo ra rào cản cao cho việc tiếp cận

ChatGPT Agent hiện tại chỉ dành riêng cho người đăng ký gói Pro với giá 200 đô la Mỹ mỗi tháng, cung cấp 400 tương tác agent hàng tháng. Khi tính năng này được triển khai cho người đăng ký Plus với giá 20 đô la Mỹ hàng tháng, họ sẽ chỉ nhận được 40 tương tác. Mô hình định giá này phản ánh cường độ tính toán của dịch vụ, nhưng thử nghiệm cho thấy người dùng sẽ cần nhiều truy vấn cho mỗi dự án, làm giảm hiệu quả số lượng tác vụ thực tế có thể hoàn thành.

So sánh giá cả:

Gói Pro: 200 USD/tháng, 400 tương tác với agent
Gói Plus: 20 USD/tháng, 40 tương tác với agent (sắp ra mắt)
Sử dụng thực tế: Dự kiến 20-25 dự án do cần các truy vấn theo dõi

Kết quả hiệu suất cho thấy sự không nhất quán đáng kể

Thử nghiệm toàn diện trên tám kịch bản khác nhau tiết lộ một mô hình đáng lo ngại về kết quả hỗn hợp. Agent thể hiện sự hiểu biết vững chắc về hầu hết các vấn đề nhưng thường xuyên thất bại trong việc thực hiện các tác vụ một cách hiệu quả. Duyệt web tỏ ra đặc biệt thách thức, với agent gặp khó khăn trong việc cuộn qua các trang và bị chặn bởi các hạn chế AI trên nhiều trang web. Thời gian chờ phiên cũng làm gián đoạn các tác vụ xử lý dài hơn, ngay cả trên gói Pro cao cấp.

Tóm tắt Kết quả Kiểm thử:

Tổng số bài kiểm thử được thực hiện: 8 kịch bản toàn diện
Thời gian xử lý: từ 2-32 phút mỗi tác vụ
Tỷ lệ thành công: 1 kết quả gần như hoàn hảo, 7 kết quả có vấn đề đáng kể
Các vấn đề phổ biến: Liên kết bị hỏng, thông tin ảo tưởng, chất lượng đồ họa kém

Mối quan ngại về độ chính xác đặt ra câu hỏi về việc sử dụng chuyên nghiệp

Xu hướng ảo giác thông tin của agent đặt ra những lo ngại nghiêm trọng cho các ứng dụng chuyên nghiệp. Trong quá trình tìm kiếm sản phẩm Amazon , công cụ cung cấp các liên kết sản phẩm không tồn tại và các khuyến nghị bịa đặt. Khi được giao nhiệm vụ tạo bài thuyết trình, nó tạo ra các slide với văn bản chồng chéo, thiếu chú thích và chất lượng đồ họa kém. Có lẽ đáng lo ngại nhất, khi một bài thuyết trình do AI tạo ra được kiểm tra sự thật bởi một phiên ChatGPT Agent khác, chỉ năm trong số mười bảy điểm dữ liệu có thể được xác nhận đầy đủ, trong khi một phiên GPT-4o tiêu chuẩn trước đó đã xác thực tất cả các khẳng định.

Kết quả Xác minh Độ chính xác: Khi bài thuyết trình được tạo bởi AI được kiểm tra thông tin:

Được xác nhận đầy đủ: 5/17 điểm dữ liệu
Được xác nhận phần lớn: 6/17 điểm dữ liệu
Được xác nhận một phần: 4/17 điểm dữ liệu
Chưa được xác minh: 2/17 điểm dữ liệu

Hạn chế kỹ thuật cản trở các dự án phức tạp

Agent gặp khó khăn với các dự án phân tích dữ liệu quy mô lớn thường sẽ biện minh cho việc hỗ trợ AI. Các vấn đề tương thích trình duyệt ngăn cản việc sử dụng trong ứng dụng macOS , và chạy nhiều phiên agent đồng thời gây ra tình trạng đình trệ hệ thống. Những hạn chế này làm giảm đáng kể tiện ích của công cụ cho loại tác vụ nghiên cứu và phân tích toàn diện mà sẽ làm cho chi phí đăng ký cao trở nên đáng giá.

Hạn chế về mặt kỹ thuật:

Không thể xử lý các dự án phân tích dữ liệu quy mô lớn
Gặp khó khăn khi cuộn trang web
Bị chặn bởi các hạn chế AI/robots.txt trên nhiều trang web
Hết thời gian phiên làm gián đoạn các tác vụ xử lý dài
Không tương thích với ứng dụng macOS
Không thể chạy nhiều phiên cùng lúc

Thành công nổi bật chứng minh tiềm năng tương lai

Bất chấp nhiều thiếu sót, một trường hợp thử nghiệm đã mang lại kết quả đặc biệt. Khi được yêu cầu phân tích quy định xây dựng cho các yêu cầu lắp đặt hàng rào, agent đã tạo ra phân tích chính xác, chi tiết với các sơ đồ hoạt động chỉ trong bốn phút. Tác vụ này, trước đây đòi hỏi giao tiếp mở rộng với các văn phòng quy hoạch thành phố, đã được hoàn thành với bài thuyết trình và tổ chức cấp độ chuyên nghiệp. Thành công này làm nổi bật tiềm năng của công nghệ khi nó hoạt động như dự định.

Trải nghiệm người dùng cảm thấy bất an và không tự nhiên

Hành vi của agent tạo ra trải nghiệm duyệt web kỳ lạ, với con trỏ ma di chuyển qua màn hình và lời kể ngôi thứ nhất về các hành động của nó. Nhiều agent đồng thời trở nên quá tải để theo dõi, và sự bắt chước rỗng tuếch của chúng về các mô hình duyệt web của con người cảm thấy giống như sự bắt chước hơn là sự hiểu biết thực sự. Hiệu ứng thung lũng kỳ lạ này có thể cản trở việc chấp nhận của người dùng ngay cả khi khả năng kỹ thuật được cải thiện.

Tác động thị trường đối với quảng cáo kỹ thuật số

Việc áp dụng rộng rãi các agent AI có thể phá vỡ cơ bản các mô hình quảng cáo kỹ thuật số. Những trình duyệt tự động này phần lớn bỏ qua quảng cáo hiển thị trong khi hoàn thành các tác vụ, có khả năng giảm tiếp xúc của con người với quảng cáo. Nếu độ chính xác được cải thiện và người dùng không còn cần theo dõi các hoạt động của agent, thị trường quảng cáo kỹ thuật số đã gặp khó khăn có thể đối mặt với những thách thức thêm khi ít mắt người hơn nhìn thấy nội dung quảng cáo.

Trạng thái hiện tại của ChatGPT Agent cho thấy một công nghệ có tiềm năng đáng kể vẫn bị cản trở bởi các vấn đề về độ tin cậy và chi phí cao. Trong khi những tia sáng thỉnh thoảng của sự xuất sắc chứng minh những gì có thể, hiệu suất không nhất quán và lỗi thường xuyên khiến việc khuyến nghị cho việc sử dụng chuyên nghiệp ở giai đoạn này trở nên khó khăn.

Tin tức liên quan

Các Mô Hình Mã Nguồn Mở Mới Của OpenAI Cho Thấy Điểm Benchmark Mạnh Nhưng Gặp Khó Khăn Với Các Tác Vụ Thực Tế
2025-08-08

‌

‌
‌

‌

‌
‌

‌