LLM Thất Bại Trong Các Tác Vụ So Sánh Danh Sách Đơn Giản Bất Chấp Khả Năng Tiên Tiến

Nhóm Cộng đồng BigGo
LLM Thất Bại Trong Các Tác Vụ So Sánh Danh Sách Đơn Giản Bất Chấp Khả Năng Tiên Tiến

Một bài kiểm tra gần đây với ba LLM thương mại lớn đã tiết lộ những điểm yếu đáng ngạc nhiên trong việc thực hiện những tác vụ vốn được cho là đơn giản. Khi được yêu cầu xác định những tên miền cấp cao (TLD) nào có tên trùng với các phần tử HTML5 hợp lệ, ChatGPT , Google Gemini , và Claude đều đưa ra kết quả không đầy đủ hoặc sai, làm nổi bật khoảng cách cơ bản giữa những lời hứa marketing AI và hiệu suất thực tế.

Tác Vụ Đơn Giản Khiến AI Bối Rối

Thử thách có vẻ đơn giản: so sánh hai danh sách và tìm ra những điểm trùng khớp giữa tên TLD và các phần tử HTML5 . Loại tác vụ này đòi hỏi việc truy cập dữ liệu hiện tại, tham chiếu chéo thông tin, và cung cấp kết quả đầy đủ. Tuy nhiên, cả ba hệ thống AI đều gặp khó khăn đáng kể.

ChatGPT đưa ra sáu kết quả trùng khớp nhưng sai khi bao gồm .code như một TLD trong khi chỉ có .codes tồn tại. Google Gemini hoàn toàn hiểu sai tác vụ, liệt kê các phần tử HTML mà không có bất kỳ so sánh TLD nào. Claude thể hiện tốt nhất với bảy kết quả trùng khớp đúng nhưng vẫn bỏ lỡ một số kết hợp hợp lệ và cố gắng giải thích quá mức với những kết quả trùng khớp bổ sung đáng ngờ.

So sánh hiệu suất LLM trong tác vụ khớp phần tử TLD-HTML5:

Hệ thống AI Kết quả khớp chính xác Lỗi nghiêm trọng Xếp hạng hiệu suất
ChatGPT 6 kết quả khớp Bao gồm TLD ".code" không tồn tại Kém
Google Gemini 0 kết quả khớp Hoàn toàn hiểu sai nhiệm vụ Thất bại
Claude 7 kết quả khớp Bỏ lỡ một số kết quả khớp hợp lệ Tốt nhất trong ba hệ thống
ChatGPT (Advanced) 8+ kết quả khớp Bỏ lỡ phần tử ".search" Tốt với việc nhắc nhở phù hợp

Cộng Đồng Tiết Lộ Vấn Đề Thực Sự

Phản ứng của cộng đồng công nghệ đã làm nổi bật một hiểu biết quan trọng về cách những hệ thống này thực sự hoạt động. Khác với việc có quyền truy cập vào các danh sách toàn diện, cập nhật, LLM tạo ra phản hồi dựa trên các mẫu được học trong quá trình huấn luyện. Chúng không duy trì cơ sở dữ liệu hiện tại về TLD hoặc các phần tử HTML có thể được truy vấn một cách đáng tin cậy.

Một số thành viên cộng đồng đã chứng minh rằng có thể đạt được kết quả tốt hơn bằng cách yêu cầu AI viết mã để tải xuống và so sánh các danh sách thực tế, thay vì dựa vào kiến thức nội bộ của hệ thống. Cách tiếp cận này coi LLM như một trợ lý lập trình thay vì một nhà tiên tri thông tin.

LLM cộng với công cụ/mã là tuyệt vời. Chỉ riêng LLM thì như một giáo sư có vấn đề nghiện heroin không thường xuyên.

Cuộc Tranh Luận Về Prompting

Một cuộc thảo luận quan trọng nổi lên xung quanh việc liệu kết quả kém có xuất phát từ các kỹ thuật prompting không đầy đủ hay không. Một số người cho rằng việc sử dụng các mô hình tinh vi hơn với khả năng tìm kiếm và tính năng lý luận sẽ giải quyết được vấn đề. Những người khác phản bác rằng nếu cài đặt mặc định tạo ra kết quả không đáng tin cậy, thì công nghệ này chưa sẵn sàng cho việc sử dụng đại chúng.

Việc kiểm tra với prompting tinh vi hơn đã mang lại kết quả tốt hơn trong một số trường hợp, nhưng điều này đặt ra câu hỏi về khả năng sử dụng. Hầu hết người dùng chỉ đơn giản mở những công cụ này và đặt câu hỏi mà không điều chỉnh cài đặt hoặc tạo ra những prompt phức tạp. Kỳ vọng rằng người dùng phải trở thành chuyên gia kỹ thuật prompt để có được câu trả lời đáng tin cậy mâu thuẫn với thông điệp marketing về trợ lý AI kỳ diệu.

Ý Nghĩa Rộng Lớn Hơn Cho Độ Tin Cậy AI

Ví dụ này minh họa một mô hình rộng hơn nơi LLM xuất sắc trong các tác vụ đòi hỏi phản hồi nghe có vẻ hợp lý nhưng gặp khó khăn với độ chính xác và tính đầy đủ. Các hệ thống được thiết kế để tạo ra văn bản nghe có thẩm quyền, ngay cả khi thông tin cơ bản không đầy đủ hoặc không chính xác.

Cuộc thảo luận cộng đồng tiết lộ rằng nhiều chuyên gia sử dụng thành công những công cụ này bằng cách hiểu các giới hạn của chúng và thiết kế quy trình làm việc phù hợp. Thay vì mong đợi câu trả lời trực tiếp cho các câu hỏi thực tế, người dùng có kinh nghiệm tận dụng LLM cho việc tạo mã, chuyển đổi văn bản, và các tác vụ sáng tạo nơi độ chính xác hoàn hảo không quan trọng.

Các Hạn Chế Kỹ Thuật Chính Đã Xác Định:

  • Không Có Khả Năng Truy Cập Dữ Liệu Thời Gian Thực: Các LLM không duy trì cơ sở dữ liệu hiện tại về TLD hoặc các phần tử HTML
  • Tạo Sinh Dựa Trên Mẫu: Phản hồi dựa trên các mẫu dữ liệu huấn luyện, không phải tra cứu thông tin thực tế
  • Vấn Đề Về Tính Đầy Đủ: Gặp khó khăn trong việc tạo danh sách đầy đủ và các tác vụ so sánh
  • Vấn Đề Tokenization: Khó khăn trong phân tích ở cấp độ ký tự (ví dụ: đếm chữ cái trong từ)
  • Nhiễu Ngữ Cảnh: Lỗi xuất hiện sớm trong cuộc trò chuyện ảnh hưởng đến các phản hồi tiếp theo
  • Hạn Chế Của Mô Hình Cơ Bản: Các mô hình cơ bản thường không đủ khả năng cho các tác vụ đòi hỏi độ chính xác cao

Kết Luận

Trong khi LLM đã chứng minh giá trị cho nhiều ứng dụng, bài kiểm tra này chứng minh tầm quan trọng của việc hiểu các giới hạn cơ bản của chúng. Khoảng cách giữa những lời hứa marketing và khả năng thực tế vẫn còn đáng kể, đặc biệt đối với các tác vụ đòi hỏi thông tin hiện tại, đầy đủ và chính xác. Những người dùng đạt được kết quả tốt nhất coi những hệ thống này như các bộ tạo văn bản tinh vi thay vì nguồn kiến thức đáng tin cậy, thiết kế quy trình làm việc của họ để tính đến những điểm yếu vốn có của công nghệ.

Tham khảo: LLMs are still surprisingly bad at some simple tasks