Khi trí tuệ nhân tạo ngày càng được tích hợp vào các quy trình làm việc chuyên nghiệp, người dùng đang phát hiện ra những hạn chế đáng kể khi đẩy các công cụ này vượt ra ngoài những truy vấn đơn giản. Việc thử nghiệm rộng rãi gần đây trên ChatGPT của OpenAI đã tiết lộ những mô hình lỗi và suy giảm bộ nhớ đáng lo ngại xuất hiện trong các cuộc trò chuyện phức tạp, nhiều bước, đặt ra câu hỏi về độ tin cậy của các trợ lý AI cho công việc chi tiết.
Suy giảm bộ nhớ trong các phiên làm việc kéo dài
Vấn đề đáng lo ngại nhất dường như là khả năng không thể duy trì tính nhất quán của ChatGPT trong các cuộc trò chuyện dài. Trong các bài tập lập kế hoạch kinh doanh liên quan đến mô hình hóa tài chính và tạo bảng tính, AI đã liên tục quên những giả định cơ bản đã được thiết lập trước đó trong phiên làm việc. Trong một trường hợp được ghi nhận, ChatGPT đã mất dấu một tham số khởi đầu cơ bản—bắt đầu với 250 người đăng ký thay vì số không—điều này đã dẫn đến nhiều lỗi tính toán trong suốt các dự báo tài chính.
Sự suy giảm bộ nhớ này không chỉ giới hạn ở con số. AI sẽ tự tin trích dẫn các số liệu trực tiếp mâu thuẫn với dữ liệu trong các bảng mà nó đã tạo ra chỉ vài phút trước đó, sau đó thừa nhận những lỗi này với những phản hồi thông thường như my bad mà không đưa ra bất kỳ giải thích nào cho sự khác biệt. Hành vi như vậy cho thấy rằng cửa sổ ngữ cảnh của ChatGPT , vốn nên cho phép nó tham chiếu các phần trước đó của cuộc trò chuyện, không hoạt động đáng tin cậy trong các tình huống phức tạp.
Lỗi tính toán tích tụ theo thời gian
Mô hình hóa tài chính đã tiết lộ một mô hình lỗi ngày càng thường xuyên khi các cuộc trò chuyện tiến triển. ChatGPT đã mắc lỗi trong các phép tính cơ bản bao gồm sử dụng sai giá đăng ký (dẫn đến tính toán doanh thu không chính xác), tính toán sai điểm hòa vốn, tạo biểu đồ với các con số khác biệt rất lớn so với các giả định đã thống nhất, và xây dựng bảng với các giá trị quan trọng bị thiếu. AI cũng quên các tỷ lệ chiết khấu đã thống nhất và thay thế bằng các giá trị khác mà không thông báo.
Đây không phải là những sự cố riêng lẻ mà là một phần của sự cố hệ thống đòi hỏi sự cảnh giác liên tục từ người dùng. Những gì bắt đầu như một phiên lập kế hoạch hợp tác đã trở thành một bài tập kiểm tra sự thật kiệt sức, với người dùng dành thời gian đáng kể để sửa những lỗi không nên xảy ra ngay từ đầu.
Các Lỗi Phổ Biến Của ChatGPT Trong Các Phiên Làm Việc Kéo Dài
Loại Lỗi | Mô Tả | Tác Động |
---|---|---|
Mất Trí Nhớ | Quên các giả định đã thiết lập (ví dụ: số lượng người đăng ký ban đầu) | Lỗi tính toán dây chuyền |
Sai Sót Tính Toán | Sai giá đăng ký, điểm hòa vốn | Dự báo tài chính không chính xác |
Dữ Liệu Không Nhất Quán | Trích dẫn các con số mâu thuẫn với bảng tự tạo | Phân tích không đáng tin cậy |
Thiếu Giá Trị | Bảng thiếu các giá trị quan trọng | Mô hình kinh doanh không đầy đủ |
Nhầm Lẫn Tham Số | Thay thế các tỷ lệ chiết khấu khác nhau mà không thông báo | Định giá không chính xác |
Vượt ra ngoài các ứng dụng kinh doanh
Các vấn đề về độ tin cậy mở rộng xa hơn các phép tính tài chính. Những vấn đề tương tự xuất hiện trong các tác vụ phức tạp khác như dịch tài liệu và phân tích nội dung. Khi xử lý một cuốn sách thơ ở định dạng PDF, ChatGPT không chỉ mắc lỗi trong việc trích xuất văn bản mà còn bỏ sót toàn bộ các phần của bài thơ và chèn các bài thơ hoàn toàn bịa đặt không có trong tác phẩm gốc. Điều này chứng minh rằng các vấn đề kỹ thuật cơ bản ảnh hưởng đến nhiều loại xử lý nội dung khác nhau.
Nghịch lý năng suất
Bất chấp những khuyết điểm đáng kể này, ChatGPT vẫn mang lại giá trị đáng kể cho các dự án phức tạp. AI có thể cung cấp các phương trình hữu ích, thông tin nền và duy trì tính nhất quán chủ đề trong suốt các cuộc thảo luận—những khả năng đại diện cho những tiến bộ lớn so với công nghệ chatbot trước đây. Người dùng báo cáo rằng các dự án có thể được hoàn thành trong khoảng một nửa thời gian so với làm việc một mình, nhưng phần lớn thời gian tiết kiệm đó bị tiêu tốn bởi việc sửa lỗi và xác minh.
Điều này tạo ra cái mà một người dùng mô tả là nghịch lý năng suất—tiết kiệm một nửa thời gian dự kiến trong khi mất thêm một phần tư để sửa những lỗi do AI tạo ra. Lợi ích ròng tồn tại nhưng đi kèm với chi phí ẩn của sự cảnh giác liên tục và căng thẳng vì không bao giờ biết khi nào lỗi tiếp theo sẽ xuất hiện.
Phân tích Tác động Năng suất
- Thời gian Tiết kiệm: Giảm khoảng 50% thời gian hoàn thành dự án ban đầu
- Thời gian Mất đi: 25% thời gian tiết kiệm được dành cho việc sửa lỗi và xác minh
- Lợi ích Ròng: Tiết kiệm 25% tổng thời gian nhưng kèm theo căng thẳng do phải giám sát liên tục
- Hiệu suất Tốt nhất: Các cuộc hội thoại ngắn với truy vấn đơn giản
- Hiệu suất Kém nhất: Các phiên dài với nhiều biến số và giả định
Giải pháp kỹ thuật và hạn chế hiện tại
OpenAI thừa nhận những hạn chế này, tuyên bố rằng ChatGPT hoạt động tốt nhất trong các cuộc trò chuyện ngắn và công ty đang liên tục cải thiện độ tin cậy trong các cuộc trò chuyện dài hơn. Nguyên nhân gốc rễ kỹ thuật dường như là các mô hình ngôn ngữ lớn hoạt động như các cơ sở dữ liệu lỏng lẻo có thể mất hoặc thay thế dữ liệu quan trọng mà không cảnh báo.
Các giải pháp doanh nghiệp như Retrieval-Augmented Generation ( RAG ) có thể giúp bằng cách lưu trữ các biến quan trọng trong các cơ sở dữ liệu riêng biệt, đảm bảo chúng ổn định trừ khi được thay đổi một cách rõ ràng. Tuy nhiên, hầu hết người dùng cá nhân thiếu quyền truy cập vào cơ sở hạ tầng như vậy, để lại việc xác minh thủ công như biện pháp phòng thủ duy nhất chống lại lỗi AI.
Tính năng giọng nói thêm một lớp phức tạp khác
Thử nghiệm riêng biệt các tính năng giọng nói của ChatGPT tiết lộ những thách thức khả năng sử dụng bổ sung. Trong khi chức năng rảnh tay hoạt động tốt cho các tác vụ đơn giản như hướng dẫn công thức nấu ăn hoặc tóm tắt tin tức, nhiều người dùng thấy giọng nói AI quá được đánh bóng và nhân tạo. Việc truyền đạt quá mượt mà tạo ra hiệu ứng thung lũng kỳ lạ khiến các tương tác cảm thấy kém tự nhiên hơn dự định.
Thực tế hơn, các tương tác bằng giọng nói buộc người dùng phải tiêu thụ thông tin theo tốc độ của AI thay vì nhanh chóng quét văn bản để tìm chi tiết liên quan. Hạn chế về tốc độ này đặc biệt ảnh hưởng đến người dùng chuyên nghiệp dựa vào xử lý thông tin nhanh chóng cho quy trình làm việc của họ.
Các Tùy Chọn Giọng Nói ChatGPT và Trải Nghiệm Người Dùng
Tên Giọng Nói | Đặc Điểm | Phản Hồi Người Dùng |
---|---|---|
Cove | Êm dịu và trấn an | Quá hoàn hảo, thiếu những khuyết điểm tự nhiên |
Maple | Tươi sáng và năng động | Mức độ năng lượng không ổn định |
Ember | Âm điệu cân bằng | Vẫn cảm thấy giả tạo |
Sol | Tùy chọn tiêu chuẩn | Ít được người dùng chuyên nghiệp ưa chuộng nhất |
Các Vấn Đề Phổ Biến: Cách truyền tải quá mượt mà, tạm dừng không tự nhiên, hạn chế kiểm soát tốc độ cho việc xử lý thông tin nhanh
Tác động đối với việc áp dụng AI
Những phát hiện này làm nổi bật khoảng cách quan trọng giữa lời hứa tiếp thị AI và hiệu suất thực tế. Trong khi ChatGPT xuất sắc trong việc tạo ra các bản thảo ban đầu và cung cấp cảm hứng sáng tạo, độ tin cậy của nó giảm đáng kể trong các tình huống đòi hỏi độ chính xác và chú ý đến chi tiết liên tục. Người dùng phải cân nhắc việc tiết kiệm thời gian với gánh nặng tinh thần của việc giám sát lỗi liên tục.
Tình trạng hiện tại của công nghệ AI cho thấy rằng sự giám sát của con người vẫn cần thiết cho bất kỳ công việc quan trọng nào. Thay vì thay thế phán đoán của con người, những công cụ này được xem tốt nhất như những trợ lý mạnh mẽ nhưng không hoàn hảo đòi hỏi quản lý cẩn thận để mang lại những lợi ích đã hứa.